Naturlig språkbehandling

Naturlig språkbehandling , [ 1 ] [ 2 ] forkortet PLN [ 3 ] [ 4 ] — på engelsk, natural language processing , NLP— er et felt innen informatikk , kunstig intelligens og lingvistikk som studerer interaksjoner mellom datamaskiner og menneskelig språk. Den omhandler formulering og undersøkelse av beregningsmessig effektive mekanismer for kommunikasjon mellom mennesker og maskiner ved hjelp av naturlig språk , det vil si verdens språk . Det handler ikke om kommunikasjon gjennom naturlige språk på en abstrakt måte, men om å designe mekanismer for å kommunisere som er beregningsmessig effektive — som kan utføres ved hjelp av programmer som utfører eller simulerer kommunikasjon —. De anvendte modellene fokuserer ikke bare på forståelsen av språk i seg selv, men også på generelle menneskelige kognitive aspekter og organisering av hukommelse. Naturlig språk tjener bare som et middel til å studere disse fenomenene. Fram til 1980-tallet var de fleste PLN-systemer basert på et komplekst sett med regler designet for hånd. Fra slutten av 1980-tallet skjedde det imidlertid en revolusjon innen NLP med introduksjonen av maskinlæringsalgoritmer for språkbehandling. [ 5 ] [ 6 ]

Historikk

Historien til PLN begynner i 1950, selv om tidligere verk er funnet. I 1950 publiserte Alan Turing Computing machinery and intelligence , hvor han foreslo det som nå kalles Turing -testen som et kriterium for intelligens . I 1954 involverte Georgetown-eksperimentet maskinoversettelse av mer enn seksti setninger fra russisk til engelsk . Forfatterne hevdet at om tre til fem år ville maskinoversettelse være et løst problem. Den faktiske fremgangen innen maskinoversettelse gikk langsommere, og i 1966 viste ALPAC-rapporten at forskningen hadde vært dårligere. Senere, til slutten av 1980-tallet, ble det utført mindre skala forskning innen maskinoversettelse, og de første statistiske maskinoversettelsessystemene ble utviklet . Dette skyldtes både den stadige økningen i datakraft som følge av Moores lov og den gradvise nedgangen i dominansen til Noam Chomskys lingvistiske teorier (for eksempel transformasjonsgrammatikk ), hvis teoretiske fundament fraråder korpustypen lingvistikk. , som er basert på maskinlæringstilnærmingen til språkbehandling. Tidlige maskinlæringsalgoritmer ble deretter brukt , for eksempel beslutningstrær , systemer produsert fra hvis-da-setninger som ligner på håndskrevne regler. Et sammendrag av den 50-årige publiseringshistorien om automatisert behandling etter NLP4NLP-prosjektet finnes i en dobbeltpublikasjon i Frontiers in Research Metrics and Analytics . [ 7 ] [ 8 ]

Vanskeligheter med naturlig språkbehandling

Tvetydighet

Naturlige språk er iboende tvetydige på forskjellige nivåer:

På leksikalsk nivå kan det samme ordet ha flere betydninger, og valget av det passende må utledes fra setningskonteksten eller bakgrunnskunnskapen. Mye forskning innen naturlig språkbehandling har studert metoder for å løse leksikalske tvetydigheter ved å bruke ordbøker, grammatikk, kunnskapsbaser og statistiske korrelasjoner.
På et referansenivå innebærer oppløsningen av anaforer og kataforer å bestemme den forrige eller etterfølgende språklige enheten de refererer til.
På det strukturelle nivået kreves semantikk for å disambiguere avhengigheten av preposisjonsfraser som fører til konstruksjon av forskjellige syntaktiske trær . For eksempel, i setningen Han brøt tegningen av et nervøst sammenbrudd .
På det pragmatiske nivået betyr ofte ikke en setning det som faktisk blir sagt. Elementer som ironi spiller en viktig rolle i tolkningen av budskapet.

For å løse disse typene tvetydigheter og andre, er det sentrale problemet i PLN oversettelsen av naturlige språkinndata til en intern representasjon uten tvetydighet, for eksempel parse trees .

Deteksjon av ordgap

I talespråk er det vanligvis ingen pauser mellom ordene. Hvor ord skal skilles avhenger ofte av hvor sannsynlig det er å gi logisk mening både grammatisk og kontekstuelt. I skriftspråk har språk som mandarin-kinesisk heller ikke pauser mellom ordene.

Ufullkommen mottak av data

Utenlandske aksenter, regionalisme eller vanskeligheter med taleproduksjon, skrivefeil eller ugrammatiske uttrykk, feil ved lesing av tekster ved bruk av OCR

Komponenter

Morfologisk analyse . Analyse av ord for å trekke ut røtter, bøyningstrekk, sammensatte leksikale enheter og andre fenomener.
Syntaktisk analyse . Analysen av setningens syntaktiske struktur gjennom en grammatikk av det aktuelle språket.
Semantisk analyse . Utdraget av setningens betydning, og løsningen av leksikalske og strukturelle tvetydigheter.
Pragmatisk analyse . Analyse av tekst utenfor setningens grenser, for eksempel for å bestemme referanseforløpene til pronomen.
Fraseplanlegging. Strukturer hver setning i teksten for å uttrykke den passende betydningen.
Frasegenerering. Generering av den lineære kjeden av ord fra den generelle strukturen til setningen, med dens tilsvarende bøyninger, konkordanser og andre syntaktiske og morfologiske fenomener.