Beregningslingvistikk

Beregningslingvistikk er et tverrfaglig felt som er opptatt av utvikling av formalismer for funksjonen til naturlig språk , slik at de kan transformeres til kjørbare programmer for en datamaskin . Denne utviklingen ligger mellom regelbasert modellering og statistisk modellering av naturlig språk fra et beregningsmessig perspektiv , og involverer blant annet lingvister og informatikere som spesialiserer seg på kunstig intelligens , kognitive psykologer og logikere .

Noen av studieområdene for datalingvistikk er:

Computer Aided Corpus of Linguistics .
Design av parsere (på engelsk: parser ), for naturlige språk .
Design av taggere eller stemmer , for eksempel POS-taggeren .
Definisjon av spesialiserte logikker som fungerer som en kilde for naturlig språkbehandling .
Studie av mulig forhold mellom formelle og naturlige språk.
Automatisk oversettelse .

Opprinnelse

Beregningslingvistikk dukket opp i USA på 1950 -tallet som et forsøk på å skaffe datamaskiner som automatisk kan oversette tekster fra fremmedspråk til engelsk , spesielt fra russiske vitenskapelige tidsskrifter . Det oppsto som et resultat av påstandene til Warren Weaver , som så i oversettelsen en form for dekryptering. Da kunstig intelligens dukket opp på 1960 -tallet , ble datalingvistikk en gren av AI, som omhandler det menneskelige forståelsesnivået og produksjonen av naturlige språk.

For å oversette ett språk til et annet, ble det lagt merke til at man måtte forstå syntaksen til begge språk, i det minste på morfologinivå (syntaksen til ord) og hele setninger . For å forstå syntaksen må man forstå vokabularets semantikk og språkets pragmatikk . Det som begynte som et forsøk på å oversette tekster, ble en disiplin siktet til å forstå hvordan man kan representere og behandle individuelle naturlige språk ved hjelp av datamaskiner.

Denne typen studier er også kjent som korpuslingvistikk , siden begrepet "beregningsmessig" kan være misvisende.

Studiegrener

Beregningslingvistikk er delt inn i to grener:

Teoretisk beregningslingvistikk

Han baserer sine arbeidsemner på teoretisk lingvistikk og kognitiv vitenskap . Bidragene fra kognitiv psykologi , spesielt psykolingvistikk , er også av spesiell relevans, og har resultert i fremveksten av en ny vitenskap, beregningsbasert psykolingvistikk .

Målet er å utvikle beregnbare lingvistiske teorier, det vil si som kan brukes subtilt på datamaskiner. Gitt at de eksisterende formelle teoriene ikke tar hensyn til alle mulige språklige fenomener, dukker teoretisk datalingvistikk opp som et insentiv for den formelle forståelsen av språklige prosesser, så vel som et middel for praktisk demonstrasjon av dem. Dette skjer for eksempel gjennom automatisk analyse av store språklige korpus, for å undersøke et språklig fenomen eller teste gyldigheten av en teori.

Imidlertid har ikke alle språklige teorier krav på å bli brukt på datamaskindomenet. Faktisk studerer kognitiv lingvistikk motivasjonen til en gitt foredragsholder til å uttrykke seg, noe som naturlig nok er langt fra å kunne modelleres med en datamaskin.

Anvendt datalingvistikk

Det er en gren av datalingvistikk med en åpenbar teknologisk orientering, noe som har ført til at den ofte blir referert til med navn som lingvistisk ingeniørvitenskap eller menneskelig språkteknologi. Den fokuserer på de praktiske aspektene som kan utledes fra simulering av språklig atferd med datastyrte midler.

Målet er å lage dataprodukter som inneholder en komponent der språket, muntlig eller skriftlig, griper inn. De inkluderer:

Støtte databrukere med tekstbehandling , for eksempel retting av skrive- og stavefeil, korrektur av grammatisk korrekthet, endring av japanske eller kinesiske ideogrammer .
Det automatiske søket i tekstpassasjer (intelligent informasjonssøk) og ikke bare dens form, men også dens betydning ( informasjonshenting og søkemotorer ).
Støtte ved oversettelse av tekster til et annet språk ( dataassistert oversettelse ) eller også automatisk oversettelse .
Behandling av talespråk ( talegjenkjenning og talesyntese ), for eksempel i telefoninformasjonstjeneste eller i leseapparater for blinde.
Fra søk etter storskala informasjon fra bibliografier til direkte svar på spørsmål basert på store databanker ( informasjonshenting, datautvinning , informasjonsutvinning ) .
Behandling av språklig tilstedeværende data, for eksempel indeksering av litteratur, opprettelse av indekser og emnelister, produksjon av sammendrag og sammendrag.
Støtten til forfatterne i skrivingen av tekster, for eksempel i søket etter det presise ordet eller riktig terminologi.
Brukernes interaksjon med datamaskinen på naturlig språk, slik at datamaskinene også er tilgjengelige for personer som ikke har tilstrekkelig kunnskap om de spesifikke kommandoene (menneske-maskin-grensesnitt).

Problemer i datalingvistikk

Noen av problemene som må løses er:

Bestem semantikken . Den samme ordformen kan ha ulik betydning avhengig av konteksten (sammenlign homonym ). Den betydningen som er relevant for konteksten må velges. På den annen side trengs formalismer for å representere ordenes betydninger.
Oppløsning av syntaktisk tvetydighet. I noen tilfeller kan en setning analyseres og tolkes på flere måter. Å velge riktig krever noen ganger semantisk informasjon om talehandlingen og talerens intensjon, men i det minste tidligere statistisk kunnskap om samforekomst (felles forekomst) av ord.

For eksempel: "Pedro så Maria med kikkerten" -her er det ikke klart om Pedro har sett Maria, hun som holder kikkerten i hånden, eller om Pedro ved hjelp av kikkerten kunne se Maria.

Gjenkjenne formålet med et språklig uttrykk (se Pragmatikk ). Noen setninger skal ikke forstås ordrett. For eksempel spørsmålet "Kan jeg få saltet?" ikke svaret "Ja" eller "Nei", men la i stedet saltet bli overlevert.

Hvorvidt og hvordan disse kan løses automatisk er ikke bare definert av tilstanden til beregningsteknologi, men avhenger naturligvis mye av funksjonene til språket. Enda mer: det vil forresten etterstrebes prosedyrer som gjelder alle språk; detaljene vil imidlertid bli utarbeidet separat for hver enkelt. Et program for automatisk orddeling som er designet for engelsk vil ikke kunne brukes uten tilpasning for tysk, fordi her er prinsippene for orddeling annerledes. I motsetning til informatikk, som generelt omhandler dataprogrammering, ligger derfor datalingvistikkens anvendelsesfelt i den språkspesifikke delen av dataprogrammer.

En vitenskap defineres ikke bare av et bruksområde, men også av en teoretisk interesse. Datamaskiner er automater, de som manipulerer symboler i henhold til definerte regler. Akkurat som tall, er også språk – riktignok svært komplekse – symbolsystemer. Det er derfor åpenbart å designe dataprogrammer som simulerer operasjonene som mennesket utfører med ordene til et språk, i det minste delvis. Språklige hypoteser kan dermed testes med datamaskinen. Beregningslingvistikk er i denne forstand en lingvistikk der beregningssimulering brukes som et metodisk middel for å utdype vår kunnskap om menneskelig språk.

Til syvende og sist reiser denne tilnærmingen utvilsomt en rekke psykologiske og filosofiske spørsmål. Datamaskinen er en maskin, språk er noe intellektuelt. Hvor langt kan beregninger utføres med språk? Vil datamaskiner tenke en dag, eller vil det menneskelige intellektet fungere som en symbolsk maskin? Fascinasjonen ved beregningssimulering av språkadferd er nettopp å undersøke grensene. En kunnskapsinteresse man kan dedikere seg til datalingvistikk for er å oppdage om og hvordan menneskelig kommunikasjon kan bearbeides av datamaskiner, og om man finner grenser, hvordan er de. Er disse grensene kun praktiske eller overordnede teoretiske? Denne kunnskapen er svært viktig for den plassen vi ønsker å gi til datamaskiner i samfunnet.

Anvendelser av datalingvistikk

parser
morfologisk analysator
semantisk analysator
aligner
konjugator
språkkonvertering
språklig korpus
Stavekontroll
funksjonell disambiguator
flexor
lemmatizer
Indekseringsmotor = Indekseringsmotor
Ontologier

Se også

Mer informasjon

En introduksjonsbok
Bok som forklarer ulike anvendelser av datalingvistikk
CICLing International Congress (organisert i Mexico og andre land)
Naturlig språkberegning og generativ grammatikk i prolog ( engelsk e- bok )
Juan Carlos Tordera Yllescas (2011), The ABC of Computational Linguistics. Arch-Books
Kort introduksjon til datalingvistikk (på spansk)

Eksterne lenker

CLiC-senter for språk og databehandling, Universitetet i Barcelona
Lingvistisk ingeniørgruppe ved National Autonomous University of Mexico
Laboratoriet for naturlig språk og tekstbehandling, CIC-IPN, Mexico
Datastrukturer og datalingvistikkgruppe
Computer Linguistics Seminar (SLI) ved lingvistikkavdelingen ved University of Vigo (for det meste på galisisk )
COLE Group (gruppe som samler forskere fra forskjellige galisiske universiteter og forskningssentre )
LYS Group (språk og informasjonssamfunn ) ved universitetet i La Coruña
Tekst- og informasjonsbehandling (TIP) ved Institutt for informatikk og systemer ved Universitetet i Las Palmas de Gran Canaria
Mill of Ideas ved Institutt for lingvistikk ved Complutense University of Madrid
MeaningCloud Linguistic Engineering.