Akustisk fingeravtrykk

Et akustisk fingeravtrykk er en identifikator for lydfiler basert på innholdet i filen . Med den kan et mønster eller "signatur" av en lydfil identifiseres, slik at den kan gjenkjennes fra en lyddatabase, uten at det er nødvendig å ha informasjon om det. Bruken er basert på deteksjon av en lydprøve og senere sending til en database (DB), slik at når den er analysert, kan du søke etter treff i den og returnere informasjon om den analyserte prøven. For tiden har det utviklet seg betraktelig siden det er et veldig raskt og pålitelig system for datainnhenting og indeksering , samt reduksjon av størrelsen på det lagrede innholdet siden det ikke er nødvendig å ha det i utstyret, og ved å tildele en identitet til hvert lydsignal, som skal behandles senere.

Identifikasjonskrav

Basert på frekvensdeteksjon må en nøyaktig akustisk fingeravtrykkdeteksjonsalgoritme kunne:

Oppdag et lydfragment nøyaktig, uavhengig av overføringskanalkomprimering, forvrengning og/eller interferens.
Avhengig av applikasjonen, være i stand til å gjenkjenne tittelen på filen med en varighet på noen få sekunder, som vil bli bestemt av signalbehandlingsmetoden og synkronisering mellom den innhentede prøven og databasen.
Gjenkjenne prøven selv om den er degradert/modifisert av utjevning, tonehøyde (avspillingshastighet), effekter, ekstern støy, konvertering og/eller digitalisering og koding .
Effektivt system, avhengig av størrelsen på prøven som er anskaffet, kompleksiteten til søkealgoritmen og utvinningen av spor fra filen.

Gitt et lydutdrag og dets tilhørende fingeravtrykk, må du finne den raskeste måten å finne din beste match. Fra antall iterasjoner i søket til lengden på prøven, kan de være beregningsmessig dyre. For at søket skal være effektivt, må søkemetoden være:

Rask: Skann lesefunksjon på store databaser.
Gyldighet: Retur av et korrekt og presist resultat.
Minneeffektivitet: Behov for lite plass i minnet.
Oppdaterbar: må tillate oppdateringer, modifikasjoner og/eller sletting av objekter.

Deteksjonsteknikker

Akustiske fingeravtrykk av en fil kan oppdages på to måter:

Midlertidig: Filmønstergjenkjenning basert på signalstyrke og tid. Den er basert på bølgeformen som en funksjon av tid.
Ofte: Gjenkjennelse av mønsteret til filen basert på frekvensene og deres intensitetstopper og tid. Den er basert på egenskapene til det menneskelige auditive systemet.

Hovedforskjellen mellom de to er basert på nøyaktighet. En tidsanalyse innebærer en ganske viktig støydeteksjon. Den høye graden av varians av lydsignaler gjør nøyaktig tidsanalyse svært vanskelig.

Ved å bruke frekvensanalysen er det mulig å oppdage maksimalverdiene for de mest representative frekvensene, og unngå bakgrunnsstøy. Dette innebærer:

Større presisjon og gjenkjenning av lydfilen.

Mindre sårbarhet for støy og ytre elementer.

Lavere maksimalverdi i deteksjon (inndataverdi).

Filidentifikasjonsprosess

For gjenkjenning av en lydfil er det to prosesser. Først og fremst trekkes den mest karakteristiske informasjonen til signalet ut slik at den kan modifiseres. Deretter sendes den for å sjekke om det finnes informasjon om prøven vår.

Fingeravtrykksuttrekking

For uttak av fingeravtrykk må det tas hensyn til at prosessen må kunne:

Diskrimineringskapasitet på et stort antall spor.
Invarians på grunn av forvrengninger.
Kjører kompakt.
Lavt beregningsbehov.

Å oppnå disse kravene krever en balanse mellom dimensjonalitetsreduksjon [ 1 ] og tap av informasjon.

Denne blokken består av frontend- og fingeravtrykkmodelleringsblokkene. Front-end vil være ansvarlig for å utføre de nødvendige målingene og beregningene for å trekke ut den viktigste informasjonen fra filen, hvor den når den er beregnet, vil bli sendt til fingeravtrykksmodelleringen, for å behandle disse dataene og deres respektive representasjon, for senere tilgang til DB..

Frontend

Den konverterer lydsignalet til en sekvens av dets mest relevante egenskaper. For riktig utvikling må det tas i betraktning at den må oppnå:

Dimensjonsreduksjon.
Betydelige parametere som ligner på det menneskelige hørselssystemet.
Invarians av eksterne parametere.
Tidsmessig korrelasjon .

Inne er det flere prosesser som i noen applikasjoner kan inneholde By-Pass for å forhåndskonfigurere prosessen.

Forhåndsbehandlet

Lyden digitaliseres (om nødvendig) og konverteres til et generisk lydformat (vanligvis 16-bit PCM). Det vil bli analysert basert på antall kanaler og type lyd. I tillegg vil det normaliseres og filtreres av bånd for å tilpasse signalet til behandlingen.

Innramming og overlapping

Akustiske signaler anses som stasjonære når deres varighet er i størrelsesorden millisekunder. Signalet er delt inn i prøver av en slik størrelse at de kan betraktes som stasjonære. Størrelsen vil avhenge av variasjonshastigheten til signalet.

Forvandlet. Spektrum estimering

Ideen med transformasjoner er å oppnå et nytt sett med funksjoner for å redusere signalredundans. Det finnes optimale teknikker for transformasjon, som Karhunen-Lo`eve (KL) eller Singular Value Decomposition (SVD) , [ 2 ] men siden de er beregningsmessig komplekse teknikker, brukes enklere teknikker som Lourens, [ 3 ] Kurth, [ 4 ] osv Den vanligste teknikken er Fast Fourier Transform (FFT), selv om den diskrete cosinustransformasjonen (DCT) eller Haar-transformasjonen også brukes , blant annet. [ 5 ]

Funksjonsutvinning

Når tids-frekvensrepresentasjonen er oppnådd, må flere prosesser brukes for å oppnå den endelige karakteristiske vektoren. Målet er igjen å redusere dimensjonalitet og øke forvrengningsinvariansen. Ulike teknikker vil bli brukt (fig. 3) som utnytter begrensningene til det menneskelige hørselssystemet for å oppnå dette, samt målinger av energi, volum, envelopedetektorer m.m. [ 6 ]

Etterbehandling

De fleste funksjonene beskrevet så langt er absolutte mål. For å forbedre signalkarakteriseringen legges høyere ordensderivater til. Funksjonsvektoren vil bli opprettet med denne parameteren, som vil variere avhengig av algoritmen som brukes. [ 6 ] [ 7 ] Det er også vanlig å bruke svært lav oppløsning i kvantisering . [ 8 ] På denne måten oppnås robusthet mot forvrengninger. På denne måten blir dataene forberedt slik at de pakkes avhengig av hvordan de skal vises og/eller konsulteres.

Fingeravtrykkmodellering

Denne blokken mottar de karakteristiske vektorene som ble opprettet i forrige prosess. Denne vil ha ansvaret for å behandle vektorene og transformere dem til en enkelt karakteristisk vektor (husk at det er forskjellige vektorer, for hvert frekvensbånd, energier, filtre osv.), som skal sendes senere. Nok en gang er dimensjonaliteten til algoritmene av vital betydning, for å unngå å sende store mengder informasjon til DB. Tilpasningen av vektorene vil variere avhengig av hvert program, som vil styre størrelsen på den innhentede prøven og vektorene som skal brukes, blant andre parametere. Disse programmene er utviklet for å fungere med metadata ; Gjennom dem mottas informasjonen om den analyserte prøven. For øyeblikket kan du finne forskjellige programmer. [ 9 ] [ 10 ]

Tilfeldighet

Når det akustiske fingeravtrykket er opprettet, er neste trinn å søke etter treff for å returnere informasjon om prøven vår. Vårt "mønster" og all mulig tilleggsinformasjon som er opprettet (metadata, overskrifter, etc.) vil bli sendt til en database, for å søke etter en tilfeldighet. To faktorer som direkte påvirker denne prosessen må tas i betraktning:

Avstand

Når man relaterer egenskapene til prøven, er avstanden tatt mellom nærliggende egenskaper av vital betydning. Teknikker som den euklidiske avstanden , Manhattan-lengden eller Hamming , brukes til å beregne disse avstandene. For et korrekt søk må både den opprettede karakteristiske vektoren og den karakteristiske vektoren til DB bruke de samme teknikkene, slik at deres fingeravtrykk faller sammen uten avstandsfeil.

Søk

På den annen side må søket i databasen utføres effektivt. Hvis en effektiv søkealgoritme ikke oppnås etter å ha laget en vektor med redusert dimensjonalitet, vil vår innsats ha vært forgjeves. Den vanligste teknikken er basert på å lage indekser for å strukturere informasjonen. [ 11 ] På denne måten reduseres omfanget av data som skal konsulteres betraktelig. Du kan finne forskjellige dataspørringsoptimaliseringsteknikker, basert på indekser, heuristikk , kodeord, [ 4 ] etc. Når søket er funnet (eller ikke), vil systemet returnere all informasjonen som finnes i databasen din om prøven vår, inkludert tittel, artist, år, album, etc.

Hypotesebekreftelse

Til slutt, under spørringen i DB, opprettes resultater om den opprettede vektoren. Disse resultatene brukes til å oppdatere databasen. Med dem er det mulig å oppdatere tidligere resultater, legge til nye resultater og forbedre presisjonen til de lagrede prøvene. I [ 1 ] kan du se all informasjon og nomenklatur som ble brukt i denne siste prosessen.

Applikasjoner

De fleste applikasjoner finnes på mobile enheter og stasjonære datamaskiner. Til tross for dette begynner den å bli brukt i medisin og dataindeksering, på grunn av dens høye hastighet på tilgang til informasjon (f.eks. DNA-spørringer).

Referanser

↑ a b R. Baeza-Yates og B. Ribeiro-Neto, Modern Information Retrieval. Addison Wesley, 1999.
↑ Theodoris, S. og K. Koutroumbas, mønstergjenkjenning . Academic Press, 1999.
↑ Lourens, J. "Deteksjon og logging av annonser ved å bruke lyden." I Proc. fra COMSIG , Johannesburg, 1990.
↑ a b Kurth, F., A. Ribbrock og M. Clausen, Identifikasjon av sterkt forvrengt lydmateriale for spørring i store databaser," i Proc. AES 112th Int. Conv., München, Tyskland, mai 2002.
↑ Subramanya, S., R. Simha, B. Narahari og A. Youssef, "Transformbasert indeksering av lyddata for multimediadatabaser." I Proc. of Int. Conf. on Computational Intelligence and Multimedia Applications , New Delhi, India, sept. 1999.
↑ a b P. Cano, E. Batlle, H. Mayer og H. Neuschmied, "Robust lydmodellering for sangdeteksjon i kringkastet lyd," i Proc. AES 112th Int. Conv., München, Tyskland, mai 2002.
↑ E. Allamanche, J. Herre, O. Helmuth, B. Fr¨oba, T. Kasten og M. Cremer, "Innholdsbasert identifikasjon av lydmateriale ved bruk av mpeg-7 lavnivåbeskrivelse," i Proc. av Int. Symp. of Music Information Retrieval, Indiana, USA, oktober 2002.
↑ G. Richly, L. Varga, F. Kov'acs og G. Hossz'u, "Kortsiktig lydstrømkarakterisering for pålitelig overvåking av forekomster i sanntid av gitte lydutskrifter," i Proc. 10. Mediterranean Electrotechnical Conference, MEleCon, 2000.
↑ (2002) Etantrum. [På nett]. Tilgjengelig: http://www.freshmeat.net/projects/songprint
↑ (2002) Musicbrainz trm. musicbrainz-1.1.0.tar.gz. [På nett]. Tilgjengelig: ftp://ftp.musicbrainz.org/pub/musicbrainz/
↑ E. Chavez, G. Navarro, RA Baeza-Yates og JL Marroquin, "Searching in metric spaces," ACM Computing Surveys, vol. 33, nei. 3, s. 273–321, 2001.

Eksterne lenker

http://www.springerlink.com/content/j2548107knlw130l/ ( ødelagt lenke tilgjengelig på Internet Archive ; se historikk , første og siste versjon ).
https://web.archive.org/web/20110221010716/http://www.assta.org/sst/SST-96/cache/SST-96-Chapter10-p27.pdf