Naturlig språkbehandling , [ 1 ] [ 2 ] forkortet PLN [ 3 ] [ 4 ] — på engelsk, natural language processing , NLP— er et felt innen informatikk , kunstig intelligens og lingvistikk som studerer interaksjoner mellom datamaskiner og menneskelig språk. Den omhandler formulering og undersøkelse av beregningsmessig effektive mekanismer for kommunikasjon mellom mennesker og maskiner ved hjelp av naturlig språk , det vil si verdens språk . Det handler ikke om kommunikasjon gjennom naturlige språk på en abstrakt måte, men om å designe mekanismer for å kommunisere som er beregningsmessig effektive — som kan utføres ved hjelp av programmer som utfører eller simulerer kommunikasjon —. De anvendte modellene fokuserer ikke bare på forståelsen av språk i seg selv, men også på generelle menneskelige kognitive aspekter og organisering av hukommelse. Naturlig språk tjener bare som et middel til å studere disse fenomenene. Fram til 1980-tallet var de fleste PLN-systemer basert på et komplekst sett med regler designet for hånd. Fra slutten av 1980-tallet skjedde det imidlertid en revolusjon innen NLP med introduksjonen av maskinlæringsalgoritmer for språkbehandling. [ 5 ] [ 6 ]
Historien til PLN begynner i 1950, selv om tidligere verk er funnet. I 1950 publiserte Alan Turing Computing machinery and intelligence , hvor han foreslo det som nå kalles Turing -testen som et kriterium for intelligens . I 1954 involverte Georgetown-eksperimentet maskinoversettelse av mer enn seksti setninger fra russisk til engelsk . Forfatterne hevdet at om tre til fem år ville maskinoversettelse være et løst problem. Den faktiske fremgangen innen maskinoversettelse gikk langsommere, og i 1966 viste ALPAC-rapporten at forskningen hadde vært dårligere. Senere, til slutten av 1980-tallet, ble det utført mindre skala forskning innen maskinoversettelse, og de første statistiske maskinoversettelsessystemene ble utviklet . Dette skyldtes både den stadige økningen i datakraft som følge av Moores lov og den gradvise nedgangen i dominansen til Noam Chomskys lingvistiske teorier (for eksempel transformasjonsgrammatikk ), hvis teoretiske fundament fraråder korpustypen lingvistikk. , som er basert på maskinlæringstilnærmingen til språkbehandling. Tidlige maskinlæringsalgoritmer ble deretter brukt , for eksempel beslutningstrær , systemer produsert fra hvis-da-setninger som ligner på håndskrevne regler. Et sammendrag av den 50-årige publiseringshistorien om automatisert behandling etter NLP4NLP-prosjektet finnes i en dobbeltpublikasjon i Frontiers in Research Metrics and Analytics . [ 7 ] [ 8 ]
Naturlige språk er iboende tvetydige på forskjellige nivåer:
For å løse disse typene tvetydigheter og andre, er det sentrale problemet i PLN oversettelsen av naturlige språkinndata til en intern representasjon uten tvetydighet, for eksempel parse trees .
I talespråk er det vanligvis ingen pauser mellom ordene. Hvor ord skal skilles avhenger ofte av hvor sannsynlig det er å gi logisk mening både grammatisk og kontekstuelt. I skriftspråk har språk som mandarin-kinesisk heller ikke pauser mellom ordene.
Utenlandske aksenter, regionalisme eller vanskeligheter med taleproduksjon, skrivefeil eller ugrammatiske uttrykk, feil ved lesing av tekster ved bruk av OCR
Det er mulig å identifisere innenfor PLN et underfelt spesialisert i semantiske og pragmatiske relasjoner, kalt Natural Language Understanding (CLN, på engelsk Natural Language Understanding - NLU ). CLN vil da gruppere områdene automatisk oppsummering , parafrasering , sentimentanalyse og søke etter svar . Av dette vil hovedapplikasjonen være chatbots eller samtaleroboter . [ 9 ]
De viktigste jobboppgavene i PLN er: