Søke etter svar

Søket etter svar , på engelsk Question Answering (QA), er en type informasjonsinnhenting . Gitt et visst antall dokumenter (som World Wide Web ), bør systemet kunne hente svar på spørsmål stilt på naturlig språk . QA blir sett på som en metode som krever mer kompleks Natural Language Processing- teknologi enn andre typer Document Retrieval- systemer , og er i noen tilfeller sett på som et skritt foran nettleserteknologi .

Et spørsmålssvarssystem er et av de mest komplekse systemene rundt informasjonsinnhenting . Vi må ta i betraktning at et system basert på spørsmålssvar er mye vanskeligere enn et vanlig system som er ansvarlig for å søke etter informasjon i et mer eller mindre stort antall dokumenter , siden de må trekke ut fra nevnte dokumenter et fragment av (minimum ) tekst som svarer på et gitt spørsmål på naturlig språk. Disse systemene er nært knyttet til nettsøkemotorer .

Et spørsmålssvarssystem prøver å gjenkjenne et bredt spekter av spørsmålstyper, inkludert fakta, lister, definisjoner, hvordan, når, hvor, hvorfor osv. Slike søk kan variere fra små samlinger av lokale dokumenter, intern organisering av dokumenter, til hele nettet (eller en del av det).

Arkitektur

De første spørsmålssvarssystemene ble utviklet rundt 1960 og var i utgangspunktet naturlige språkgrensesnitt til ekspertsystemer fokusert på spesifikke domener. I motsetning til dette bruker dagens spørsmål-svar-systemer tekstdokumenter som en kunnskapsbase og kombinerer ulike naturlige språkbehandlingsteknikker.

Nåværende systemer inkluderer vanligvis en spørsmålsklassifiseringsmodul som er ansvarlig for å bestemme typen spørsmål og svar. Etter å ha analysert spørsmålet, bruker systemet ulike moduler som bruker komplekse naturlige språkbehandlingsteknikker, noe som øker kompleksiteten mellom hver modul. Deretter brukes en dokumentinnhentingsmodul som bruker søkemotorer for å identifisere dokumenter og avsnitt i dokumentet som kan inneholde svaret på spørsmålet.

Deretter brukes et filter som er ansvarlig for å velge ut små tekstbiter som inneholder strenger av samme type som forventet. For eksempel, hvis spørsmålet er Hvem er kongen av Spania?, vil dette filteret søke etter tekster som inneholder navn. Til slutt har svaruttrekksmodulen ansvaret for å lete etter ledetråder i teksten som avgjør om et kandidatsvar er riktig.

QA-metoder

Et spørsmålssvarssystem er veldig avhengig av en god søkemotor som har ansvaret for å velge dokumenter som inneholder svaret. Det virker logisk at store samlinger av dokumenter har en tendens til å gi bedre ytelse, med mindre spørsmålsdomenet er ortogonalt til samlingens. Forestillingen om dataredundans i massive samlinger, for eksempel nettet, betyr at noe informasjon sannsynligvis finnes i mange forskjellige nettsteder, kontekster og dokumenter . Dette har to fordeler, belastningen på naturlige språkbehandlingssystemer reduseres, og vi kan vurdere de riktige svarene som de som vises flere ganger.

Vi kan gjøre en differensiering mellom to forskjellige metoder dybde eller bredde:

I dybden brukes ulike metoder for å finne tekstfragmenter av dokumenter og deretter filtrere dem basert på tilstedeværelsen av ønsket svar. Til slutt sorteres disse svarene basert på forskjellige kriterier.

Men i tilfeller hvor omformuleringen av spørsmålet ikke er nok, må det gjennomføres en semantisk og kontekstuell analyse. Disse systemene inkluderer vanligvis kunnskapsstyringssystemer representert i ontologier , slik som WordNet eller SUMO .

Historie

Noen av de første kunstige intelligenssystemene var systemer for å besvare spørsmål. To av de mest kjente spørsmålssvarssystemene på den tiden var BASEBALL og LUNAR som ble utviklet på 1960 -tallet . Den første, BASEBALL, svarte på spørsmål om baseballspillere i USA over en ettårsperiode. Den andre, LUNAR, hadde ansvaret for å svare på spørsmål om den geologiske analysen av bergartene som Apollo tok med seg tilbake på sin tur til månen . Begge systemene var ganske effektive, faktisk var LUNAR i stand til å svare riktig på 90 % av spørsmålene. I årene som fulgte ble det bygget flere lukkede-domene-spørsmålsvarssystemer, hvis felles funksjonalitet var at de hadde kjerner basert på kunnskapsdatabaser skrevet av eksperter.

Noen av disse tidlige kunstige intelligenssystemene inkluderte evner til å svare på spørsmål. To av de viktigste og mest kjente systemene var SHRDU og ELIZA . SHRDLU simulerte driften av en robot i en virtuell verden (verden av blokker), og tilbød muligheten til å spørre roboten om tilstanden til den virtuelle verden. Kraften til dette systemet var valget av et veldig spesifikt domene og en enkel verden med fysiske regler som var veldig enkle å kode. På den annen side simulerte ELIZA en samtale med en psykolog . ELIZA var i stand til å snakke om et hvilket som helst emne ved å bruke veldig enkle regler som oppdaget viktige ord i input. Det var et veldig rudimentært system for å svare på spørsmål, men det skapte en rekke charrterbots som deltok i den årlige Loebner-prisen .

På 1970- og 1980 -tallet ble det utviklet forståelsesteorier innen datalingvistikk , som tillot utviklingen av tekstforståelse og spørsmålssvarsprosjekter. Et eksempel på disse systemene er Unix Consultant (UC), som svarte på spørsmål angående Unix -operativsystemet . Dette systemet hadde en omfattende domenekunnskapsdatabase . Et annet prosjekt var LILOG , som var et tekstgjenkjenningssystem som opererer innen turismedomenet i en tysk by .

På slutten av 1990 -tallet inkluderte den årlige Text Retrieval Conference (TREC) et spørsmål-svarssystem som fortsatt kjører i dag. Systemene som deltar i denne konkurransen skal svare på spørsmål om et tema ved å se etter et tekststykke som varierer fra år til år. Denne konkurransen ledet søket og utviklingen av spørsmålssvar i det åpne domenet. De beste systemene i 2004 oppnådde 77 % av de riktige spørsmålene. Et økende antall systemer inkluderer nettet som en av tekstene. For tiden er det en stor vekst i interessen for integrering av spørsmålssvarsystemer på nettet. Ask.com er et nylig eksempel, og Google og Microsoft har begynt å integrere spørsmålssvar i nettleserne sine.

Aspekter

I 2002 publiserte en gruppe forskere en veiledning om spørsmålssvar. Den identifiserer følgende aspekter.

Typer spørsmål: ulike typer spørsmål krever bruk av ulike strategier for å finne svaret. Spørsmålstyper er organisert hierarkisk i taksonomier .
Spørsmålsbehandling: det samme spørsmålet kan uttrykkes på flere måter (spørrende eller selvsikker). En semantisk modell som forstår denne typen spørsmål er nødvendig for å gjenkjenne tilsvarende spørsmål. Denne modellen tillater overgangen fra et komplekst spørsmål til flere enkle spørsmål.
Kontekst for spørsmålsbesvarelsen: spørsmål stilles vanligvis med en kontekst og besvares med den samme konteksten. Kontekst kan brukes til å avklare et problem, løse uklarheter.
Dataressurser: før et spørsmål kan besvares, må det være kjent hvilke visdomsressurser som er tilgjengelige. Hvis svaret på et spørsmål ikke er i disse ressursene, uansett hvor godt vi behandler spørsmålet, får vi ikke et riktig svar.
Svarekstraksjon: svarekstraksjon avhenger av spørsmålets kompleksitet , av typen svar valgt i spørsmålsbehandlingen, av dataene vi har og av søkemetoden.
Formulering av svaret: Resultatet av spørsmålssvarsystemet skal presenteres på et så naturlig språk som mulig. I noen tilfeller er enkel ekstraksjon utilstrekkelig. For eksempel, når klassifiseringen av et spørsmål indikerer at spørsmålet er av typen navn, mengde eller dato, er datautvinning tilstrekkelig. For andre tilfeller kan presentasjonen av besvarelsen kreve bruk av andre typer teknikker.
Spørsmålssvar i sanntid: Svar i sanntid er svært nødvendig. Disse systemene må kunne behandle store mengder data på kort tid.

Søke etter svar

Arkitektur

QA-metoder

Historie

Aspekter

Se også

Eksterne lenker