MP3

MPEG-lydlag III
Fraunhofer-Gesellschaft , Karlheinz Brandenburg , Heinz Gerhäuser, Bernhard Grill og Harald Popp
Generell informasjon
filutvidelse .mp3
mime-type audio/mpeg[1]
audio/MPA[2]
audio/mpa-robust[3]
Uniform Type Identifier offentlig.mp3
magisk tall 49 44 33
Første utgivelse 1995 [ 4 ]
formattype Lydfilformat
Standarder) ISO/IEC 11172-3
ISO/IEC 13818-4
åpent format Ja 

MPEG-1 Audio Layer III eller MPEG-2 Audio Layer III , mer kjent som MP3 , er et digitalt lydkomprimeringsformat som bruker en tapsalgoritme for å oppnå mindre filstørrelser. Det er et vanlig lydformat sombrukes for musikk på både datamaskiner og bærbare lydspillere .

MP3 ble utviklet av Moving Picture Experts Group ( MPEG ) for å være en del av MPEG-1- standarden og den senere og mer utbredte MPEG-2 . En MP3 laget med 128 kbit/s komprimering vil være omtrent 11 ganger mindre i størrelse enn CD-motstykket. En MP3 kan også komprimeres med en høyere eller lavere bithastighet per sekund, noe som direkte resulterer i lavere endelig lydkvalitet samt resulterende filstørrelse.

Historikk

Dette formatet ble hovedsakelig utviklet av Karlheinz Brandenburg , direktør for elektroniske medieteknologier ved Fraunhofer IIS Institute, som tilhører Fraunhofer-Gesellschaft —et nettverk av tyske forskningssentre — som sammen med Thomson Multimedia (omdøpt til Technicolor ) kontrollerte hoveddelen av relaterte patenter med MP3-formatet.

Den tyske forskeren Karlheinz Brandenburg regnes som "faren til MP3" og var en del av teamet som ga MPEG-formatet navnet: " Moving Pictures Experts Group ". Gruppen ga navnet til den digitale metoden for å komprimere lyd- og videosignaler for enkel kringkasting og lagring. Prosessen kalt MPEG Audio Layer III (MPEG Audio Layer 3) er ganske vanlig i dag, men utviklingen var ikke lett. I tillegg har andre lydmedier allerede brukt komprimeringsteknikker som MPEG-1 Audio Layer I på Philips digitale kompaktkassett eller ATRAC som brukes av Sony for sine Minidiscs .

Historien begynner i 1982, da Brandenburg deltar i skapelsen av formatet. Doktorgradsrådgiveren hans hadde ønsket å patentere en metode for å overføre data uten å lykkes. Det som var ment å patenteres var en måte å overføre musikk på ved hjelp av telefonlinjer , noe det tyske patentkontoret anså som umulig. Noen fremskritt ville ikke vises før i 1986, da University of Ilmenau skaffet bedre datamaskiner for å forbedre arbeidskapasiteten. Mange anstrengelser måtte gjøres for å oppnå ønsket resultat. Opprinnelig var det tenkt å bruke et system ved å dele opp lydlag, men det ble forkastet da det ble ansett som for stivt, og deretter ble det endret til et nytt som utnytter begrensningene til det menneskelige øret.

Den første ble registrert i 1987 . Det året prøvde tyskerne å løse dilemmaet om hvordan de skulle spre digital lyd i laboratoriet for elektroniske medieteknologier. CD-filer var tunge og tungvinte, CD-stasjoner var nye, det samme var å installere dem på en PC.

I 1988 innkalte den internasjonale organisasjonen for standardisering MPEG-teamet for å lage en lydkodingsstandard. På dette tidspunktet ble testene av det nye systemet utført. Det så ut til at de endelig nådde målet sitt, men da de ble testet med Suzanne Vegas "Tom's Dinner" viste det alvorlige feil, siden a cappella -låtformatet og den lille ambiente lyden representerte en stor utfordring for systemet. Da ble det bedt om samarbeid fra flere institusjoner. Brandenburg jobbet med AT&Ts Jim Johnston for å utvikle nye komprimeringsmetoder for å bevare stemmekvaliteten. De klarte til slutt å forhindre at systemet skadet sangerens stemme, og måtte jobbe hardere for å endelig få CD-lignende kvalitet.

I 1992 inkluderte ISO MP3 som en lydkomprimeringsstandard, men det var ikke før året etter at den endelig ble formalisert med ankomsten av MPEG-1 Audio Layer III (MPEG-1 Audio Layer III), med samplingsfrekvenser på 33, 44,1 og 48 kHz. De bestemte seg da for å markedsføre den til selskaper for å overføre musikken til radiostudioer via ISDN .

De sendte inn flere patenter i 1991 , men det var i juli 1995 at Brandenburg først brukte utvidelsen .mp3for MP3-relaterte filer han holdt på datamaskinen. Ingeniøren Leonardo Chiariglione deltok også i prosessen med å utvikle formatet , som hadde ideen om standardene som kunne være nyttige for dette formålet. [ 5 ] Et år senere mottok instituttet hans 1,2 millioner euro i patenter . Ti år senere har dette tallet nådd 26,1 millioner.

Mellom 1994 og 1995 identifiserte de Internett som et attraktivt område. Så de bestemte seg for å gi filene det endelige navnet på .mp3. Forretningsmodellen var planlagt som dyre kodingsverktøy for bedrifter og billige set-top-bokser for forbrukere. Et av set-top-boksproduktene som oppnådde mest suksess og anerkjennelse var Winamp .

Det tok imidlertid ikke lang tid før formatet ble fratatt ISO- og Fraunhofer-kontroll, ettersom en australsk statsborger hadde kjøpt koderen ved å bruke et stjålet taiwansk kredittkort og deretter pakket den sammen og lastet den opp til en FTP- server Gjenningsmannens identitet og oppholdssted er foreløpig ukjent. Dette startet konflikten mellom innspillingsindustrien og MP3, og gjorde den til dens hovedfiende, selv om den vedvarende suksessen til CD-plater [ 6 ] i Asia er med på å opprettholde salget i fysisk format.

Etter utviklingen av bærbare spillere og dens integrering i bilstereo, mobiltelefoner , DVD -spillere , hodetelefoner, videospillkonsoller, høyttalere og mini hjemmelydsystemer, når MP3-formatet i dag utover dataverdenen.

MP3-formatet ble standarden som ble brukt for lydstrømming og medium-fidelity tapslydkomprimering takket være muligheten for å justere kvaliteten på komprimeringen , proporsjonal med bithastigheten og dermed den endelige størrelsen på filen.filen, noe som gjør det mulig å redusere opptil 12 og til og med 15 ganger originalfilen før komprimering.

Det var det første lydkomprimeringsformatet som ble populært takket være Internett , siden det gjorde utveksling av musikkfiler mulig. Rettslige søksmål mot selskaper som Napster , AudioGalaxy og Megaupload er et resultat av hvor enkelt denne typen filer deles lovlig og ulovlig, forutsatt at det er hovedboomen i kampen om intellektuell eiendom på Internett.

På begynnelsen av 2000-tallet fornyet Thomson Multimedia formatet under navnet MP3Pro for å overvinne viktige begrensninger i kvalitet (spesielt i høye frekvenser), parallelt med utseendet til konkurrerende lydkomprimeringsformater, som Windows Media Audio (fra Microsoft ). ), Ogg Vorbis , ATRAC og AAC , som begynner å bli massivt inkludert i lydprogrammer for datamaskiner, enheter, operativsystemer, mobiltelefoner og bærbare spillere, noe som gjorde det mulig å forutse at MP3 ville dele popularitet med de nye formatene, av bedre kvalitet .

En faktor som muligens påvirket utseendet til så mye konkurranse er at MP3-formatet hadde patenter , noe som ikke innebar at kvaliteten er dårlig, men mediesøksmålet mot Microsoft i 2007 viste sin lukkede standard. [ 7 ] Dette forhindret fellesskapet i å forbedre det og kan tvinge deg til å betale for bruken av kodeken , noe som skjer i tilfelle enheter som bruker den, for eksempel mobiltelefoner og nettbrett. Likevel, i dag fortsetter MP3-formatet å være det mest brukte og mest suksessrike med en økende tilstedeværelse. Noen nettbutikker som Amazon og Google Play Music [ 8 ] selger musikken sin i dette formatet av kompatibilitetshensyn. I 2017 utløp alle patenter relatert til MP3-formatet. [ 9 ]​ [ 10 ]

Tekniske detaljer

I dette laget er det flere forskjeller med hensyn til MPEG-1 og MPEG-2 standardene, blant annet den såkalte filterbanken slik at designet får større kompleksitet. Denne forbedringen av frekvensoppløsningen forverrer den tidsmessige oppløsningen og introduserer pre-ekkoproblemer som er forutsagt og korrigert. I tillegg muliggjør den lydkvalitet med hastigheter så lave som 64 kbps.

MPEG-1-filer tilsvarer samplingshastighetene på 32, 44,1 og 48 kHz.

MPEG-2-filer tilsvarer samplingshastighetene på 16, 22, 0,5 og 24 kHz.

Filterbank

Filterbanken som brukes i dette laget er den såkalte hybrid polyphase/MDCT filterbanken. Den er ansvarlig for å kartlegge fra tidsdomenet til frekvensdomenet for både koder- og dekoderrekonstruksjonsfiltrene . Utgangssamplene til banken er kvantiserte og gir en variabel frekvensoppløsning, 6x32 eller 18x32 underbånd, og tilpasser seg mye bedre til de kritiske båndene til de forskjellige frekvensene. Ved å bruke 18 punkter er maksimalt antall frekvenskomponenter: 32 × 18 = 576. Gir opphav til en frekvensoppløsning på: 24000/576 = 41,67 Hz (hvis fs = 48 kHz). Hvis det brukes 6 frekvenslinjer, er frekvensoppløsningen lavere, men den tidsmessige oppløsningen er høyere, og den brukes i de områdene der det forventes pre-ekkoeffekter (bråte overganger fra stillhet til høye energinivåer).

Layer III har tre blokkmoduser: to moduser der de 32 filterbankutgangene kan passere gjennom vinduene og MDCT-transformasjoner, og en blandet blokkmodus der de to laveste frekvensbåndene bruker lange blokker og de 30 øverste båndene bruker korte blokker.

For det spesifikke tilfellet med MPEG-1 Audio Layer 3 (som spesifikt betyr det tredje lydlaget for MPEG-1-standarden) spesifiserer det fire typer vinduer:

  1. VANLIG.
  2. Lang til kort vindusovergang (START).
  3. Tre korte vinduer (KORT).

Den psykoakustiske modellen

Komprimeringen er basert på reduksjonen av det irrelevante dynamiske området, det vil si på det auditive systemets manglende evne til å oppdage kvantiseringsfeil under maskeringsforhold . Denne standarden deler signalet inn i frekvensbånd som tilnærmer de kritiske båndene, og kvantiserer deretter hvert underbånd basert på støydeteksjonsterskelen innenfor det båndet. Den psykoakustiske modellen er en modifikasjon av den som ble brukt i skjema II, og bruker en metode som kalles polynomprediksjon. Den analyserer lydsignalet og beregner mengden støy som kan introduseres som en funksjon av frekvens, det vil si at den beregner "mengde maskering" eller maskeringsterskel som en funksjon av frekvens.

Koderen bruker denne informasjonen til å bestemme den beste måten å bruke de tilgjengelige bitene på . Denne standarden gir to psykoakustiske modeller med ulik kompleksitet: modell I er mindre kompleks enn psykoakustisk modell II og forenkler beregningene betydelig. Studier viser at forvrengningen som genereres er umerkelig for det erfarne øret i et optimalt miljø fra 192 kbps og under normale forhold. [ referanse nødvendig ] For det uerfarne eller vanlige øret, med 128 kbps eller opptil 96 kbps er det nok å høre "bra" (med mindre du har høykvalitets lydutstyr der mangelen på bass er overdrevent merkbar og den "steke" lyden skiller seg ut i diskanten). Folk som har erfaring med å lytte til digitale lydfiler, spesielt musikk, fra 192 til 256 kbps er nok til å høre godt, men 320 kbps komprimering er optimal for enhver lytter. [ referanse nødvendig ] . Musikken som sirkulerer på Internett er for det meste kodet mellom 128 og 192 kbps, selv om det i dag, på grunn av økningen i båndbredde, er stadig mer vanlig å dele filer med maksimal komprimeringskvalitet.

Digital koding og kvantisering

Løsningen foreslått av denne standarden angående distribusjon av biter eller støy gjøres i en iterasjonssyklus som består av en intern og en ekstern syklus. Den undersøker både filterbankutgangsprøvene og SMR (signal-til-maske-forholdet) levert av den psykoakustiske modellen , og justerer bitallokeringen eller kvantiseringsstøyen , avhengig av skjemaet som brukes, for samtidig å tilfredsstille hastighetskravene bit og maskering. Disse syklusene består av:

Indre syklus

Den indre sløyfen utfører ikke-ensartet kvantisering i henhold til flytepunktsystemet (hver MDCT - spektralverdi heves til 3/4-potensen). Sløyfen velger et visst kvantiseringsintervall, og de kvantiserte dataene blir Huffman-kodet i neste blokk. Sløyfen avsluttes når de kvantiserte verdiene som har blitt Huffman-kodet bruker mindre enn eller lik antall biter enn det maksimale antallet biter som er tillatt.

Ekstern syklus

Nå er den eksterne syklusen ansvarlig for å verifisere om skaleringsfaktoren for hvert bånd har mer forvrengning enn tillatt (støy i det kodede signalet), og sammenligner hvert bånd i skalafaktoren med dataene som tidligere ble beregnet i den akustiske analysen. Den ytre sløyfen avsluttes når en av følgende betingelser er oppfylt:

Pakking eller bitstrømformatering

Denne blokken tar de kvantiserte samplene av filterbanken, sammen med bit/støykartleggingsdataene, og lagrer agapely den kodede lyden og noen tilleggsdata i rammene. Hver ramme inneholder informasjon om 1152 lydprøver og består av en header, lyddataene sammen med CRC -feilkontrollen og de spesielle dataene (de to sistnevnte er valgfrie).

Volum

Volumnormalisering, også kjent som Audio Normalization, består i utgangspunktet av å justere volumet på sporene som utgjør et album, som lar deg lytte til sangene som utgjør det alltid med samme volum, og unngå hoppet mellom en sang som « høres lavt ut» med en som «høres høyt ut». [ 11 ] Til dette brukes programmer som QMP3Gain . [ 12 ]

Strukturen til en MP3-fil

En MP3-fil er bygd opp av forskjellige rammer som igjen består av en header og selve dataene. Denne datasekvensen kalles « Elemental Stream ». Hver av rammene er uavhengige, det vil si at rammene til en MP3-fil kan klippes og deretter spilles av på en hvilken som helst MP3-spiller på markedet. Overskriften består av et synkroniseringsord som brukes til å indikere begynnelsen av en gyldig ramme. Dette etterfølges av en serie biter som indikerer at den analyserte filen er en standard MPEG -fil og om den bruker lag 3 eller ikke. Etter alt dette varierer verdiene avhengig av typen MP3-fil. Verdiområdene er definert i ISO/IEC 11172-3-standarden.

Diskret Fourier-transformasjon

I matematikk er den diskrete Fourier-transformasjonen, ofte betegnet med forkortelsen DFT , og noen ganger kalt den endelige Fourier-transformasjonen, en mye brukt Fourier-transformasjon i signalbehandling og i magnetiske felt. affin for å analysere frekvensene som er tilstede i et samplet signal, løse partiell differensialligninger, og utføre andre operasjoner, for eksempel konvolusjoner. Den brukes i prosessen med å lage en MP3-fil.

Den diskrete Fourier-transformasjonen kan beregnes veldig effektivt ved å bruke FFT -algoritmen .

Se også

Referanser

  1. ^ Nilsson, M. (november 2000). "Lyd/mpeg-medietypen - RFC 3003" . IETF . _ 
  2. Casner, S.; Hoschka, P. (juli 2003). "MIME-typeregistrering av RTP-nyttelastformater - RFC 3555" . IETF . _ 
  3. ^ Finlayson, R. (februar 2008). "Et mer tapstolerant RTP-nyttelastformat for MP3-lyd - RFC 5219" . IETF . _ 
  4. ^ "ISO/IEC 11172-3:1993 - Informasjonsteknologi - Koding av bevegelige bilder og tilhørende lyd for digitale lagringsmedier med opptil 1,5 Mbit/s - Del 3: Lyd" . ISO. 1993 . Hentet 14. juli 2010 . 
  5. ^ "Den lille historien om en stor: MP3" . (Paul Makovsky, overs.). Uten kneble . 4. april 2011. Arkivert fra originalen 10. desember 2017 . Hentet 27. februar 2014 . 
  6. Sisario, Ben (5. oktober 2014). "CD er fortsatt konge ... i Japan" . Finansmannen . 
  7. ^ "Microsoft bøtelagt 1,5 milliarder dollar for brudd på MP3-patenter" . RPP Nyheter . 22. februar 2007. Arkivert fra originalen 25. februar 2007 . Hentet 11. juni 2022 . 
  8. ^ "Vanlige spørsmål om Google Play Musikk" . Steegle (på engelsk) . 
  9. «mp3» . Fraunhofer Institute for Integrated Circuits IIS . Hentet 13. august 2019 . 
  10. Pastor, Javier (3. mai 2017). «MP3-formatet som revolusjonerte musikkindustrien er nå fri som vinden: farvel til patenter» . Xataka . 
  11. ^ "Normaliser MP3-volum" . Databehandling i dag . 
  12. Branyiczky, Zsolt. «QMP·Gain» . SourceForge . 

Eksterne lenker