BLÅ

BLEU (Bilingual Evaluation Understudy) er en metode for å evaluere kvaliteten på oversettelser utført av automatiske oversettelsessystemer . En oversettelse har høyere kvalitet jo mer lik den er en annen referanse, som skal være korrekt. BLEU kan beregnes ved å bruke mer enn én referanseoversettelse. Dette gir større tilpasset robusthet mot gratis oversettelser utført av mennesker.

BLEU beregnes typisk på setningsnivå og finner presisjonen i ngram mellom systemoversettelsen og referanseoversettelsen. Imidlertid brukes en modifisert presisjon for å overvinne visse mangler ved målingen.

Modifisert nøyaktighet

Presisjonen til ngrams mellom 2 setninger er:

1 grams presisjonseksempel
Kandidat 1 EN katt es de matte
Kandidat 2 de katt finnes i de borde
Referanse de katt es de bord

I dette eksemplet vil presisjonen i 1 gram være for kandidat 1 og for kandidat 2.

Presisjon er ikke et passende mål for å beregne likheten mellom 2 setninger, som du kan se nedenfor:

Eksempel på dårlig oversettelse med høy presisjon
kandidat de de de de de de
Referanse de katt es de bord

I dette tilfellet vil vi ha en presisjon på . Av denne grunn må det maksimale antallet forekomster av et ngram i referansefrasen tas i betraktning, dette er grensen når man teller forekomstene i kandidatfrasen. Med dette i tankene vil den modifiserte presisjonen være i dette siste eksemplet.

Straff for korthet

Hvis setningene som skal sammenlignes har veldig ulik lengde, kan vi ikke si at de er like. Hvis kandidatfrasen er lengre enn referansefrasen, gjenspeiles dette i den modifiserte presisjonsformelen ovenfor. Det vil være mange ngram i kandidatfrasen som ikke vises i referansefrasen, så nøyaktigheten blir lavere. Dette skjer ikke når referansefrasen er mye mindre, som kan sees i følgende eksempel:

Eksempel på dårlig oversettelse med høy presisjon
kandidat de de
Referanse de katt es de bord

Den modifiserte presisjonen vil være og vil ikke reflektere likheten mellom de to setningene. Av denne grunn innføres en straff for korthet i kandidatsetningene.

hvor c er lengden på kandidatfrasen og r lengden på referansefrasen.

BLEU-beregning

For beregning av BLEU brukes det geometriske gjennomsnittet for N ngrammene som skal brukes. Hvert ngram vil ha en vekt slik at . Typisk

Referanser

Se også