Talegjenkjenning

Automatisk talegjenkjenning ( ASR ) eller automatisk talegjenkjenning er en disiplin innen kunstig intelligens som tar sikte på å muliggjøre muntlig kommunikasjon mellom mennesker og datamaskiner . Problemet som oppstår i et system av denne typen er det å få et sett med informasjon som kommer fra ulike kunnskapskilder (akustisk, fonetisk, fonologisk, leksikalsk, syntaktisk, semantisk og pragmatisk) til å samarbeide, i nærvær av tvetydigheter, usikkerheter og uunngåelige feil for å få en akseptabel tolkning av den mottatte akustiske meldingen.

Et stemmegjenkjenningssystem er et beregningsverktøy som er i stand til å behandle stemmesignalet som sendes ut av mennesket og gjenkjenne informasjonen i det, konvertere det til tekst eller gi ordre som virker på en prosess. Ulike disipliner er involvert i utviklingen, for eksempel: fysiologi , akustikk , lingvistikk , signalbehandling , kunstig intelligens og informatikk .

Design av et RAH-system

Læring

Et avgjørende aspekt ved utformingen av et RAH-system er valg av type læring som brukes til å bygge de ulike kunnskapskildene. I utgangspunktet er det to typer:

I praksis finnes det ingen metodikk som utelukkende er basert på induktiv eller deduktiv læring. Faktisk antas det et deduktivt-induktivt kompromiss der de generelle aspektene er gitt deduktivt og karakteriseringen av variabiliteten gjøres induktivt.

Akustisk-fonetisk dekoder

Kildene til akustisk, fonetisk, fonologisk og muligens leksikalsk informasjon, med de tilsvarende tolkningsprosedyrene, gir opphav til en modul kjent som en akustisk-fonetisk dekoder (eller noen ganger en leksikalsk dekoder). Inngangen til den akusto-fonetiske dekoderen er det praktisk representerte stemmesignalet; for dette er det nødvendig at den gjennomgår en parametriseringsforprosess. I dette forrige stadiet er det nødvendig å anta en fysisk modell, som regner med auditive modeller og artikulatoriske modeller.

Språkmodell

Kildene til syntaktisk, semantisk og pragmatisk kunnskap gir opphav til systemets språkmodell. Når representasjonen av syntaks og semantikk har en tendens til å integreres, utvikles RAH- systemer med begrenset grammatikk for spesifikke oppgaver.

Gjenkjennelse av en begrenset grammatikk
Begrenset grammatikkgjenkjenning fungerer ved å redusere typiske gjenkjente fraser til en mindre størrelse enn formell grammatikk. Denne typen gjenkjennelse fungerer best når foredragsholderen gir korte svar på spesifikke problemer eller spørsmål: "ja" eller "nei" spørsmål, når du velger et menyvalg, et element fra en bestemt liste, osv. Grammatikk spesifiserer de mest typiske ordene og setningene som en person vil si i rask respons, og forbinder deretter disse ordene eller setningene med et semantisk konsept. For eksempel kan et "ja" forstås når du hører et "jepp", "ok", "ja" eller "ok", og et "nei" med et "nei", "ingenting" eller "ikke i det hele tatt" .

Hvis taleren sier noe som grammatisk ikke gir mening, vil gjenkjennelsen mislykkes. Normalt, hvis gjenkjenningen mislykkes, vil applikasjonen be brukeren om å gjenta det de sa, og gjenkjenningen vil bli prøvd på nytt. Hvis systemet er utformet riktig og gjentatte ganger ikke er i stand til å forstå brukeren (på grunn av misforståelse av spørsmålet, kraftig aksent, forstyrrelser eller for mye støy rundt), vil det slippe og viderekoble anropet til en annen operatør. Forskning viser at samtaler som blir bedt om å omformulere spørsmålet eller problemet om og om igjen, raskt blir frustrerte og opprørte.

De mest komplekse språkmodellene trenger store stemmekropper og skrevet tekst for at læring og evaluering av de tilsvarende systemene skal fungere korrekt . Takket være dem kan mer komplekse grammatikk nærmes og nærmere Natural Language Processing .

Kjennetegn ved eksisterende systemer

Kommersielle systemer har vært tilgjengelige siden 1990. Til tross for den tilsynelatende suksessen til disse teknologiene, er det svært få som bruker talegjenkjenning på datamaskinene sine. Det ser ut til at mange av brukerne bruker mus og tastatur til å lagre eller skrive dokumenter, fordi de synes det er mer behagelig og raskere til tross for at vi alle kan snakke raskere enn vi skriver. Men med bruk av tastatur og talegjenkjenning kan arbeidet bli mye mer effektivt. For eksempel anslår skaperne av DigaLaw X kommersielle system for advokater at diktering med det er 3 til 4 ganger raskere enn å skrive, med lignende presisjon [ referanse nødvendig ]

Dette systemet brukes fremfor alt i telefonapplikasjoner : reisebyråer , kundeservice , informasjon, etc. Forbedringen av disse talegjenkjenningssystemene har vært økende, og deres effektivitet øker. [ referanse nødvendig ]

Klassifisering

Stemmegjenkjenningssystemer kan klassifiseres i henhold til følgende kriterier:

Bruk og applikasjoner

Selv om i teorien enhver oppgave der du samhandler med en datamaskin kan bruke talegjenkjenning, er følgende applikasjoner de vanligste for øyeblikket:

Kuriosa

Se også

Referanser

Eksterne lenker