Automatisk oversettelse

Oversettelse
Typer
Teori
  • Oversettelsesstudier
  • omfang
  • oversettelsesprosjekt
  • Dynamisk og formell ekvivalens
  • kontrastiv lingvistikk
  • Teknologier
  • KATT
  • Automatisk oversettelse
  • Mobil
  • Dubbing
  • Teksting
  • etterredigering
  • plassering
  • globalisering
  • Internasjonalisering og lokalisering
  • språk lokalisering
  • spilllokalisering
  • Lokalisering av nettsted
  • lokalisert dubbing
  • Institusjonell
  • foreninger
  • skoler
  • Organisasjoner
  • Priser
  • relaterte temaer
  • Transkripsjon
  • translitterasjon
  • telefontolking
  • Frilansoversettelser
  • fansub
  • fandub
  • Bibeloversettelser
  • oversatte bøker
  • oversettere
  • Maskinoversettelse ( MT eller MT ) er et område innen datalingvistikk som undersøker bruken av programvare for å oversette tekst eller tale fra ett naturlig språk til et annet. I sitt mest grunnleggende aspekt erstatter MT ganske enkelt ordene på ett språk med ordene på det andre, men det er åpenbart at denne prosedyren sjelden resulterer i en god oversettelse, siden det ikke er en-til-en-korrespondanse mellom leksikonet til de forskjellige språk.

    Bruken av språklige korpus så vel som statistiske og nevrale teknikker utgjør et felt med stor vekst som gir oversettelser av overlegen kvalitet; forskjeller i språktypologi, oversettelse av idiomatiske uttrykk og isolering av anomalier tas i betraktning.

    I dag tillater maskinoversettelsesprogramvare ofte justeringer for et spesialfelt (for eksempel værmeldinger eller pressemeldinger), og oppnår dermed bedre resultater. Denne teknikken er spesielt effektiv i settinger der formelspråk brukes. Med andre ord, oversettelse av juridiske eller administrative dokumenter med datamaskin har en tendens til å være mer produktive enn samtaler eller andre ikke-standardiserte tekster.

    Noen systemer oppnår høyere kvalitet ved å tilby spesifikke veier for menneskelig intervensjon; for eksempel gir de brukeren muligheten til å identifisere egennavn inkludert i teksten. Ved hjelp av disse teknikkene er maskinoversettelse et svært nyttig verktøy for oversettere, og kan i visse tilfeller til og med gi brukbare resultater uten behov for modifikasjoner.

    Statistiske teknikker

    De siste tiårene har det vært et sterkt fremstøt i bruken av statistiske teknikker for utvikling av maskinoversettelsessystemer. For anvendelse av disse teknikkene på et gitt språkpar, kreves tilgjengeligheten av et parallellkorpus for nevnte par. Gjennom dette korpuset estimeres parametere for to statistiske modeller som fastslår sannsynligheten for at visse ord sannsynligvis vil bli oversatt av andre, samt de mest sannsynlige posisjonene som ordene på målspråket har en tendens til å innta basert på de tilsvarende ordene til målspråket kildefrase. Appellen til disse teknikkene ligger i det faktum at utviklingen av et system for et gitt språkpar kan gjøres veldig automatisk, med svært lite behov for ekspertarbeid fra språkspesialister.

    Menneskelig inngripen kan forbedre kvaliteten på resultatet: for eksempel kan noen systemer oversette mer nøyaktig hvis brukeren tidligere har identifisert ordene som tilsvarer egennavn. Ved hjelp av disse teknikkene har dataoversettelse vist seg å være et nyttig hjelpemiddel for menneskelige oversettere . Men selv om de i noen tilfeller kan gi brukbare resultater "som de er", er ikke dagens systemer i stand til å produsere resultater av samme kvalitet som en menneskelig oversetter, spesielt når teksten som skal oversettes bruker dagligdagse eller kjente språk. På den annen side er det et faktum at menneskelige oversettelser også inneholder feil. Som svar på dette har man sett nyere utviklinger innen automatisk MT-korreksjon, slik som SmartCheck-funksjonaliteten til oversettelsesselskapet Unbabel, basert på Machine Learning.

    Interaktive prediktive statistiske teknikker

    I denne retningen har statistisk assisterte oversettelsesteknikker basert på en interaktiv-prediktiv tilnærming , der datamaskinen og den menneskelige oversetteren jobber i tett gjensidig samarbeid, nylig fått spesiell interesse. Basert på kildeteksten som skal oversettes, gir systemet forslag til mulige oversettelser til målspråket. Hvis noen av disse forslagene er akseptable, velger brukeren det og, hvis ikke, korrigerer det som er nødvendig til han får et riktig fragment. Fra dette fragmentet produserer systemet bedre spådommer. Prosessen fortsetter på denne måten inntil en oversettelse som er fullstendig akseptabel for brukeren er oppnådd. Basert på reelle brukerevalueringer i TransType -2- prosjektet [ 1 ] reduserer denne prosessen betydelig tiden og innsatsen som kreves for å skaffe kvalitetsoversettelser.

    Oversettelse som et problem

    Oversettelse er i dag hovedflaskehalsen i informasjonssamfunnet, og mekaniseringen representerer et viktig fremskritt i møte med problemet med informasjonsskred og behovet for translingvistisk kommunikasjon.

    De første bemerkelsesverdige datautviklingene ble gjort i den berømte Eniac-datamaskinen i 1946. Blant de banebrytende forskerne må vi nevne Warren Weaver, fra Rockefeller Foundation. Han var den som gjorde disiplinen offentlig kjent, og forutså mulige vitenskapelige metoder for å adressere den: bruken av kryptografiske teknikker, anvendelsen av Shannons teoremer og nytten av statistikk, samt muligheten for å dra nytte av den underliggende logikken til mennesket. språket og dets tilsynelatende universelle egenskaper.

    Nyheter

    Høye kvalitetsnivåer oppnås for tiden for oversettelse mellom romanske språk ( spansk , portugisisk , katalansk , galisisk og andre). Resultatene forverres imidlertid betydelig jo mer typologisk fjernt språkene er fra hverandre, som tilfellet er med oversettelsen mellom spansk og engelsk eller tysk . Dette faktum er imidlertid ikke statisk, men dynamisk: oversettelsesteknologien forbedres dag for dag.

    En annen svært innflytelsesrik faktor for kvalitet er graden av spesialisering av oversettelsessystemene, som forbedres i den grad de er tilpasset typen tekst og vokabular som skal oversettes. Et system som spesialiserer seg på å oversette værmeldinger vil oppnå en akseptabel kvalitet selv for å oversette tekster mellom typologisk svært ulike språk, men det vil være ubrukelig for for eksempel å håndtere sportslige eller økonomiske rapporter. Et produksjonssystem som bruker maskinoversettelse vil også inkludere teknologier som språkdeteksjon, domene- eller emnedeteksjon og automatisk vokabulargenerering.

    Tradisjonell oversettelse

    Å oversette har tradisjonelt vært en kunst og et håndverk som krever talent og engasjement. En vanlig kritikk av oversettelsesparadigmeskiftet er å tro at datamaskiner bare erstatter ett ord med det samme ordet fra et annet språk. Imidlertid er MT-systemer i produksjon integrasjoner av ulike språklige teknologier som går langt utover å oversette ord for ord. En språklig analyse av en tekst vil gi informasjon om morfologi (måten ord er bygd opp fra små meningsfulle enheter), syntaks (strukturen til en setning) og semantikk (betydningen), som absolutt er nyttig for oversettelsesoppgaver. Det er også spørsmål om stil og diskurs eller pragmatikk å vurdere .

    Tvetydighet og disambiguering

    Se også: Wikipedia:Disambiguation

    Når det gjelder spørsmålet om tvetydighet, er det ikke alle mennesker som forstår det. Det er mulig for en menneskelig oversetter å feilaktig forstå et tvetydig ord eller uttrykk. Til fordel for beregningsmetoden kan vi nevne bruken av disambigueringsalgoritmer som for eksempel Wikipedia bruker for å skille sider som har samme eller svært lik tittel.

    Frasebaserte statistiske metoder

    De beste resultatene for maskinoversettelse kommer fra setningsbaserte statistiske metoder, som utfører oversettelser uavhengig av grammatiske problemer. For tiden er trenden å integrere alle slags metoder: språklig, etter regler, med etterredigering osv., men hovedkomponenten, som i de fleste teknologier som bruker store datamengder ( Big Data ), er Machine Learning ( eller maskinlæring ).

    Historien om maskinoversettelse

    1600  -tallet : Descartes

    Ideen om maskinoversettelse kan spores tilbake til 1600-tallet . I 1629 foreslo René Descartes et universelt språk, med likeverdige ideer på forskjellige språk som deler samme symbol.

    1950-tallet: Georgetown-eksperiment

    1950 - tallet involverte Georgetown-eksperimentet ( 1954 ) en helautomatisk oversettelse av mer enn seksti setninger fra russisk til engelsk . Eksperimentet var en fullstendig suksess og innledet en epoke med betydelig forskningsfinansiering for teknologier som ville muliggjøre maskinoversettelse. Forfatterne hevdet at innen tre til fem år ville maskinoversettelse være et løst problem.

    Verdenskrig

    Verden kom ut av en verdenskrig som vitenskapelig hadde oppmuntret utviklingen av beregningsmetoder for å dechiffrere krypterte meldinger. Weaver er kreditert for å si: "Når jeg ser en artikkel skrevet på russisk, sier jeg til meg selv: Dette er faktisk på engelsk, om enn kodet med merkelige symboler. La oss dekode det akkurat nå! " (sitert i Barr og Feigenbaum , 1981 ). Det sier seg selv at både datamaskinene og programmeringsteknikkene fra disse årene var veldig rudimentære (det ble programmert av ledningskort på maskinspråk), så de reelle mulighetene for å teste metodene var minimale.

    1960–1980: ALPAC-rapport og statistisk maskinoversettelse

    Den faktiske fremgangen var mye tregere. Finansieringen til forskning ble kraftig redusert etter ALPAC- rapporten ( 1966 ), fordi den fant at forskning som hadde vart i ti år ikke hadde levd opp til forventningene. Fra slutten av 1980- tallet økte datakraften datakraften og gjorde den billigere, og økt interesse for statistiske modeller for maskinoversettelse ble vist .

    AD Booth, Birkbeck College og blindeskrifttekster

    Ideen om å bruke digitale datamaskiner for oversettelse av naturlige språk ble foreslått så tidlig som i 1946 av AD Booth og muligens andre også. Georgetown-eksperimentet var på ingen måte det første av disse applikasjonene. En demonstrasjon ble gjort i 1954 med APEXC -teamet ved Birkbeck College ( University of London ) av en rudimentær oversettelse fra engelsk til fransk. På den tiden ble det publisert flere forskningsartikler om emnet, og til og med artikler i populære magasiner (se for eksempel Wireless World , september 1955 , Cleave og Zacharov ) . En lignende applikasjon, også pioner ved Birkbeck College på den tiden, var lesing og komposisjon av blindeskrifttekster ved hjelp av datamaskin .

    John Hutchins

    En obligatorisk referanse for å lære mer om utviklingen av maskinoversettelse er den britiske akademikeren John Hutchins , hvis bibliografi kan konsulteres fritt på Internett . Hovedartikkelen følger Jhonatan Slocums forenklede disposisjon , som dekker den tiår lange historien til maskinoversettelse.

    Typer maskinoversettelse

    Gitt nok informasjon, kan maskinoversettelser fungere ganske bra, slik at folk med et bestemt morsmål kan få en ide om hva noen andre har skrevet på språket deres. Hovedproblemet ligger i å skaffe riktig informasjon for hver av oversettelsesmetodene.

    I følge hans tilnærming kan maskinoversettelsessystemer klassifiseres i to store grupper: de som er basert på språklige regler på den ene siden, og de som bruker tekstkorpus på den andre.

    Regelbasert maskinoversettelse

    Maskinoversettelse ved bruk av regler består i å gjøre transformasjoner fra originalen, og erstatte ordene med deres mest passende ekvivalent. Settet med denne typen transformasjoner av den opprinnelige teksten kalles tekstforhåndsredigering .

    For eksempel er noen vanlige regler for engelsk: [ 2 ]

    Generelt vil en tekst i en første fase bli analysert, som vanligvis skaper en intern symbolsk representasjon. Avhengig av abstraksjonen av denne representasjonen, er det også mulig å finne ulike grader: fra direkte, som i utgangspunktet gjør ord-for-ord-oversettelser, til interlingua, som bruker en fullstendig mellomrepresentasjon.

    Overfør

    I overføringsoversettelse spiller analysen av originalen en viktigere rolle, og viker for en intern representasjon som brukes som et ledd for å oversette mellom ulike språk.

    Mellomspråk

    Maskinoversettelse fra et mellomspråk er et spesielt tilfelle av regelbasert maskinoversettelse. Originalspråket, for eksempel en tekst som skal oversettes, omdannes til et mellomspråk, hvis struktur er uavhengig av originalspråkets og sluttspråkets. Teksten på sluttspråket er hentet fra representasjonen av teksten på mellomspråket. Generelt kalles dette mellomspråket "interlingua".

    Korpusbasert maskinoversettelse

    Automatisk oversettelse fra et språklig korpus er basert på analyse av reelle prøver med deres respektive oversettelser. Mekanismer som bruker korpus inkluderer statistiske og eksempelbaserte metoder.

    Statistikk

    Målet med statistisk maskinoversettelse er å generere oversettelser fra statistiske metoder basert på korpus av tospråklige tekster, for eksempel protokollene fra Europaparlamentet , som er oversatt til alle de offisielle språkene i EU . Ettersom flerspråklige tekstkorpus genereres og analyseres, forbedres resultatene iterativt ved å oversette tekster fra lignende domener.

    Det første programmet for statistisk maskinoversettelse var Candide , utviklet av IBM . Google brukte SYSTRAN sine tjenester i noen år, men har siden oktober 2007 brukt sin egen statistisk baserte maskinoversettelsesteknologi. I 2005 forbedret Google oversettelsesevnene ved å analysere 200 milliarder ord av FN- dokumenter .

    Fremdriften av maskinoversettelse er ikke et isolert fenomen. Informasjonsteknologier som helhet presenterer eksponentiell fremgang , i stor grad takket være disipliner som maskinlæring , kunstig intelligens , statistikk som, næret av Big Data og Big Language , [ 3 ] har gitt fantastiske resultater innen språkgjenkjenning, i tekst-til- talesyntese og sanntids taleoversettelse.

    Basert på eksempler

    Eksempelbasert maskinoversettelse kjennetegnes ved bruk av et tospråklig korpus som hovedkilde til kunnskap i sanntid. Det er i hovedsak en oversettelse ved analogi og kan tolkes som en implementering av grunntilfelle-resonnement brukt i maskinlæring, som består av å løse et problem basert på løsning av lignende problemer.

    Kontekstbasert maskinoversettelse

    Kontekstbasert maskinoversettelse bruker teknikker basert på å finne den beste oversettelsen for et ord ved å se på resten av ordene som omgir det. I utgangspunktet er denne metoden basert på å behandle teksten i enheter på mellom 4 og 8 ord, slik at oversettelse hver av dem ved sin oversettelse til målspråket, og oversettelsene som har generert en meningsløs "setning" blir eliminert. Deretter flyttes vinduet en (ord) posisjon, og de fleste av dem oversettes på nytt og filtreres igjen, slik at bare de sammenhengende frasene blir igjen. Dette trinnet gjentas for hele teksten. Og så er resultatene av disse vinduene sammenkoblet slik at en enkelt oversettelse av teksten oppnås.

    Filtreringen som utføres der det avgjøres om det er en meningsfull setning, bruker et korpus av målspråket, hvor antall opptredener av den søkte setningen telles.

    Det er derfor en metode basert på ganske enkle ideer som gir svært gode resultater sammenlignet med andre metoder.

    Som fordeler er det også enkelt å legge til nye språk, siden du bare trenger:

    • en god ordbok, som kan være en hvilken som helst kommersiell versjon tilpasset av grammatiske regler for å ha konjugerte verb og substantiv/adjektiver med deres variasjoner i antall og kjønn, og
    • et korpus på målspråket, som kan hentes fra Internett , for eksempel uten behov for å oversette noen del, som i statistiske metoder.

    Maskinoversettelse i Spania

    Forskning i Spania har gått gjennom tre viktige stadier. Siden 1985 begynte forskningen med en plutselig interesse for Spania . Etter ett år ved inntreden i Det europeiske fellesskap. Tre transnasjonale selskaper finansierte opprettelsen av ulike forskningsgrupper. IBM , Siemens og Fujitsu . Paradoksalt nok ble 1992 , som var året for feiringen av 500-årsjubileet for oppdagelsen av Amerika og de olympiske leker, også holdt i Barcelona. Først IBM og deretter Siemens dannet FoU-grupper i laboratoriene deres i Madrid og Barcelona i 1985, ledet av henholdsvis Luis de Sopeña og Montserrat Meya . IBM brukte Artificial Intelligence Research Center ved Autonomous University of Madrid som hovedkvarter for et team som spesialiserer seg på naturlig språk. Dette teamet deltok først i utformingen av Mentor-prototypen, sammen med et annet IBM-senter i Israel, og senere i tilpasningen til spansk av LMT, et system designet ved TJ Watson Research Center i USA. I følge gruppens publikasjoner i tidsskriftet Natural Language Processing jobbet minst følgende spesialister på IBM-prosjekter mellom 1985 og 1992: Teo Redondo, Pilar Rodríguez, Isabel Zapata, Celia Villar, Alfonso Alcalá, Carmen Valladares, Enrique Torrejón, Begoña Carranza, Gerardo Arrarte og Chelo Rodríguez.

    Siemens bestemte seg for å bringe utviklingen av den spanske modulen til det prestisjetunge metallsystemet nærmere Barcelona. Montserrat Meya, som til da hadde jobbet i Siemens sentrallaboratorier i München, tok kontakt med filologen og ingeniøren Juan Alberto Alonso, og sammen utgjorde de kjernen i et team der en endeløs liste med samarbeidspartnere senere skulle delta: Xavier Gómez Guinovart , Juan Bosco Camón, Begoña Navarrete, Ramón Fanlo, Clair Corbishley, Begońa Vázquez, etc. Etter 1992 ble gruppen dedikert til språklige prosjekter et uavhengig selskap, Incyta. Etter en avtale med regjeringen i Catalonia og det autonome universitetet i Barcelona , ​​ble den katalanske modulen utviklet, som nå er hovedaktiviteten.

    På slutten av 1986 ble det opprettet to nye grupper i Barcelona og Madrid, blant dem ble utviklingen av modulene til EUROTRA-systemet, finansiert av EU-kommisjonen , distribuert . Ramón Cerdá samlet en stor gruppe spesialister ved Universitetet i Barcelona , ​​bestående av blant andre Jesús Vidal, Juan Carlos Ruiz , Toni Badia , Sergi Balari, Marta Carulla og Nuria Bel . Mens denne gruppen tok for seg spørsmål om syntaks og semantikk, var en annen gruppe i Madrid ansvarlig for morfologi og leksikografi, ledet av Francisco Marcos Marín . I samarbeid med ham var blant andre Antonio Moreno , Pilar Salamanca og Fernando Sánchez-León .

    Et år senere, i 1987, ble en femte gruppe dannet i FoU-laboratoriene til Fujitsu-selskapet i Barcelona for å utvikle de spanske oversettelsesmodulene til det japanske Atlas-systemet. Denne gruppen ble ledet av ingeniøren Jorge Vivaldi og filologene José Soler , fra Eurotra, og Joseba Abaitua. Sammen vil de skape embryoet til et team som senere fikk selskap av Elisabet Cayuelas, Lluis Hernández, Xavier Lloré og Ana de Aguilar-Amat. Selskapet avviklet denne forskningslinjen i 1992.

    En annen gruppe dedikert til maskinoversettelse i disse årene ble dannet av Isabel Herrero og Elisabeth Nebot ved universitetet i Barcelona. Denne gruppen, ledet av Juan Alberto Alonso, skapte en arabisk-spansk oversettelsesprototype i samarbeid med University of Tunis .

    Det er klart at maskinoversettelse var den viktigste katalysatoren for fødselen av datalingvistikk i Spania. Det er ingen tilfeldighet at den spanske foreningen for naturlig språkbehandling (SEPLN) ble etablert i 1983. Sammen med Felisa Verdejo skilte to andre personer seg ut i stiftelsen, de nevnte Montserrat Meya og Luis de Sopeña, som på den tiden ledet, som sa maskinoversettelsesgrupper. Den tredje kongressen til foreningen (den gang fortsatt under navnet "tekniske konferanser") ble holdt i juli 1987 ved Polytechnic University of Catalonia , med to hovedkurs i maskinoversettelse: en forelesning av Sergei Nirenburg , deretter knyttet til Center for Machine Translation fra Carnegie Mellon University , og et rundt bord deltatt av Jesús Vidal og Juan Carlos Ruiz (fra Eurotra), Luis de Sopeńa (fra IBM), Juan Alberto Alonso (fra Siemens) og Nirenburg selv.

    Noen statistiske data bekrefter relevansen av maskinoversettelse i SEPLN mellom 1987 og 1991. I løpet av disse årene, av de 60 artiklene publisert i foreningens tidsskrift, Natural Language Processing, handlet 23 (mer enn en tredjedel) om automatisk oversettelse. Nivået på deltakelsen gjenspeiler relevansen til gruppene: åtte beskriver Eurotra, syv IBM-undersøkelser, fire Metal fra Siemens og 3 Atlas fra Fujitsu. Bare én av de publiserte artiklene, av de 23, var ikke relatert til firestjerneprosjektene. Dette var den som ble presentert på konferansen i 1990 av Gabriel Amores, nåværende forsker innen maskinoversettelse, med resultatene av hans forskning ved Center for Computational Linguistics ved Umist . 35 personer har blitt sitert og dette tallet gir en ide om aktiviteten. Som et grovt estimat kan det beregnes at maskinoversettelsesforskningen i Spania i 1989 hadde et årlig budsjett på rundt 200 millioner pesetas, et tall som, så beskjedent som det kan virke, multipliserer flere ganger det beløpet som forvaltes i dag i vårt land, et tiår senere.

    Siden 1998 har Institutt for dataspråk og systemer ved Universitetet i Alicante utviklet automatiske oversettelsessystemer mellom romanske språk: interNostrum , mellom spansk og katalansk; Universia Translator , mellom spansk og portugisisk, og, mer nylig, Apertium , et åpen kildekode maskinoversettelsessystem utviklet i samarbeid med et konsortium av spanske selskaper og universiteter, som for tiden oversetter mellom språkene i den spanske staten og andre romanske språk .

    Siden 1994 har AutomaticTrans (for tiden handlet som AT Language Solutions ) utviklet sin bedriftsspråkplattform som inkluderer hybride maskinoversettelsesmotorer med høy ytelse. Plattformen kompletteres av et sett med komponenter som er nødvendige for å løse de flerspråklige og multiformatproblemene til store organisasjoner.

    I 2010 ble Pangeanic det første selskapet i verden som brukte den statistiske oversetteren Moses i et kommersielt miljø [ 4 ] og utviklet en plattform med selvlæring, korpusrengjøring og omskolering sammen med Technical Institute of Informatics of Valencia (ITI) og forskningsgruppe Pattern Recognition and Human Language Technology [ 5 ] fra Politècnica de València. Et grunnleggende medlem av TAUS, Pangeanic vant den største maskinoversettelsesinfrastrukturkontrakten for EU-kommisjonen med sitt iADAATPA [ 6 ] -prosjekt i 2017.

    Maskinoversettelsesressurser

    Se også


    Referanser

    1. TransType-2
    2. http://dti.ua.es/es/documentos/pdf/vargas-tecnologicas.pdf
    3. BigLanguage
    4. «PangeaMT: Putting Open Standards to Work..Well, av E. Yuste, Manuel Herranz, Alexandre Helle, Francisco Casacuberta et al. (2010). AMTA 2010» (på amerikansk engelsk) . 
    5. ^ "Forskergruppe for mønstergjenkjenning og menneskelig språkteknologi" . 
    6. ^ "iADAATPA Europeisk prosjekt" . 

    Bibliografi

    Eksterne lenker