UTF-8

UTF-8
Standard	ISO 10646 ( Unicode )
Idiom	flerspråklig
Tilstand	I bruk
Tidligere	UTF-1

UTF -8 (8 - bits Unicode Transformation Format ) er et Unicode- og ISO 10646 -tegnkodingsformat som bruker symboler med variabel lengde. UTF-8 ble laget av Robert C. Pike og Kenneth L. Thompson . Det er definert som en standard av < RFC 3629 > fra Internet Engineering Task Force (IETF). [ 1 ] Det er for tiden en av tre kodingsmuligheter anerkjent av Unicode og nettspråk, eller fire i ISO 10646 .

Dens viktigste egenskaper er:

Den er i stand til å representere alle Unicode-tegn.
Bruk symboler med variabel lengde (1 til 4 byte per Unicode-tegn).
Den inkluderer 7-bits US-ASCII- spesifikasjonen , så enhver ASCII-melding er representert uendret.
Inkluderer synkronisering. Det er mulig å bestemme begynnelsen av hvert symbol uten å starte lesingen på nytt fra begynnelsen av kommunikasjonen.
Ikke overlapp. Settene med verdier som hver byte av et multibyte-tegn kan ta er usammenhengende, så det er ikke mulig å forveksle dem med hverandre.

Disse funksjonene gjør det attraktivt når det gjelder koding av e-poster og nettsider. [ 2 ] [ 3 ] IETF krever at alle Internett -protokoller indikerer hvilken koding de bruker for tekst, og at UTF-8 er en av de støttede kodingene. [ 4 ] Internet Mail Consortium ( IMC) anbefaler at alle e-postprogrammer kan lage og vise meldinger kodet med UTF-8. [ 5 ]

Historikk

UTF-8 ble utviklet av Kenneth L. Thompson under designkriteriene til Rob Pike 2. september 1992 . De implementerte det begge og implanterte det i Plan 9 fra Bell Labs operativsystem . Den ble senere offisielt presentert på USENIX - konferansen i San Diego i januar 1993 . Den ble forfremmet til standard under sponsing av X/Open Joint Internationalization Group (XOJIG) og fikk i prosessen forskjellige navn som FSS/UTF og UTF-2. [ 1 ]

Beskrivelse

UTF-8 deler Unicode-tegn i flere grupper, basert på antall byte som kreves for å kode dem. Antall byte avhenger utelukkende av tegnkoden som er tildelt av Unicode og antall byte som trengs for å representere den. Fordelingen av karakterer er som følger:

Tegn kodet med én byte: De som er inkludert i US-ASCII, totalt 128 tegn.
Dobbeltbyte-kodede tegn: Totalt 1920 tegn. Denne gruppen inkluderer de romanske tegnene pluss diakritiske tegn, og de greske , kyrilliske , koptiske , armenske , hebraiske , arabiske , syriske og Thaana-alfabetene blant andre.
Tegn kodet med tre byte: Tegn i det flerspråklige Unicode-grunnplanet, som sammen med den forrige gruppen inkluderer praktisk talt alle tegnene i vanlig bruk, blant dem tegnene i CJK -gruppen : kinesisk, japansk og koreansk.
Tegn kodet med fire byte: Tegn i det flerspråklige tilleggsplanet. Matematiske symboler og klassiske alfabeter for hovedsakelig akademisk bruk: Lineær B stavelse og ideografisk, persisk alfabet, fønikisk... Og det supplerende ideografiske planet: Han -karakterer av sjelden bruk.

En viktig egenskap ved kodingen er at de mest signifikante bitene i den første byten i en multibytesekvens bestemmer lengden på sekvensen. Disse mest signifikante bitene 110 for to-byte-sekvenser; 1110 for tre-byte sekvenser, etc. Disse bitene gir også synkroniseringsinformasjon som gjør at starten på et symbol kan identifiseres.

Tegnkoding

Tabellen nedenfor viser hvordan tegn er kodet. Faste verdier i begynnelsen av hver byte garanterer overholdelse av det ikke-overlappende prinsippet, siden de er forskjellige avhengig av plasseringen til byten i strengen. UTF-16-koding er også inkludert for å se hvordan den skiller seg fra et fast antall byte-koding.

UNICODE punktområde	skalarverdi	UTF-16	UTF-8	Karakterer
000000-00007F	00000000 0xxxxxxx	00000000 0xxxxxxx	0xxxxxxx	Rekkevidde tilsvarende US-ASCII. Enkeltbyte-symboler der den mest signifikante biten er 0
000080-0007FF	00000yyy yyxxxxxx	00000yyy yyxxxxxx	110yyyyy 10xxxxxx	To-byte symboler. Den første byten starter med 110, den andre byten starter med 10
000800-00FFFF	zzzzyyyy yyxxxxxx	zzzzyyyy yyxxxxxx	1110zzzz 10yyyyyy 10xxxxxx	Tre-byte symboler. Den første byten starter med 1110, de følgende bytene starter med 10
010000-10FFFF	000uuuuu zzzzyyyy yyxxxxxx	110110ww wwzzzzyy 110111yy yyxxxxxx (wwww = uuuuu - 1)	11110uuu 10uuzzzz 10yyyyyy 10xxxxxx	Fire-byte symboler. Den første byten starter med 11110, de følgende bytene starter med 10

Etter skjemaet ovenfor vil det være mulig å øke den maksimale størrelsen på symbolet fra 4 til 6 byte. Definisjonen av UTF-8 gitt av Unicode støtter ikke denne muligheten, som støttes av ISO/IEC. [ 6 ]

La oss se, som et eksempel, hvordan tegnet eñe ('ñ') er kodet i UTF-8, som er representert i Unicode som 0x00F1:

Verdien er i området 0x0080 til 0x07FF. En spørring til tabellen viser at den må kodes med 2 byte, med formatet 110 xxxxx 10 xxxxxx.
Den heksadesimale verdien 0x00F1 tilsvarer binær (0000-0) 000-1111-0001 (de første 5 bitene ignoreres da de ikke er nødvendige for å representere verdier i det angitte området).
De 11 nødvendige bitene plasseres i rekkefølge i posisjonen merket med X: 110 00011 10 110001 .
Sluttresultatet er to byte med de heksadesimale verdiene 0xC3 0xB1. Det er koden for bokstaven eñe i UTF-8.

For å gjenopprette det opprinnelige kodepunktet, utføres den omvendte prosessen, dekomponerer sekvensene av biter i deres komponenter og tar bare de nødvendige bitene.

Kodefeil

Kodingsregler setter derfor grenser for strengene som kan dannes. I henhold til standarden må en strengtolk avvise som ugyldige, og ikke forsøke å tolke, misformede tegn. En UTF-8-strengtolker kan avbryte ved å signalisere en feil, hoppe over feilaktige tegn eller erstatte dem med et U+FFFD-tegn ( ERSTATTNINGSKARAKTER ).

Følgende er kodefeil:

Avkortede sekvenser, når et starttegn for flere byte ikke etterfølges av nok byte.
Databyte (starter med 10) uten en tilsvarende start på tegn.
Unormalt lange tegn: Representerer for eksempel et tegn fra ASCII-området på én byte med 2 byte. bytes 0xC0, 0xC1støttes ikke.
Tegnstartbyte som spesifiserer en feillengde på 5 eller 6 byte. Byte 0xF8a 0xFDstøttes ikke.
Verdier utenfor Unicode-området: Bytes 0xF5og 0xF7støttes ikke.
Ugyldige tegn. Tegn i utvalget av surrogatpar av UTF-16, kodet 0xD800a 0xDFFF, er ikke ekte tegn og skal ikke kodes i UTF-8.

Byteordremerke (BOM)

Når det plasseres i begynnelsen av en UTF-8-streng, kalles et tegn 0xFEFF, kodet i UTF-8 som 0xEF, 0xBB, , et Byte Order Mark (BOM) og identifiserer innholdet som en streng med Unicode-tegn. Når dette tegnet finnes andre steder i strengen, skal det tolkes med sin opprinnelige Unicode-betydning ( ). Siden UTF-8 er en koding der informasjonsenheten er byten, har den ikke den nytten som den har i UTF-16 og UTF-32 til å identifisere rekkefølgen av byte i et ord ( endianness ). 0xBFZWNBSP

Spesifikasjonen anbefaler eller fraråder bruk av stykkliste, selv om den fraråder å fjerne den hvis den eksisterer som et sikkerhetstiltak, for å forhindre feil i digitale signaturapplikasjoner osv. Den advarer også om at den må elimineres i sammenkoblingsoperasjoner for å forhindre at den holdes i ikke-startposisjoner.

UTF-8-avledninger

Følgende kodingsstandarder skiller seg fra og er derfor inkompatible med UTF-8-spesifikasjonen.

CESU-8

Denne implementeringen utfører en direkte oversettelse av den representerte tegnstrengen med UTF-16 i stedet for å kode Unicode-kodepunktene. Resultatet er forskjellige kodinger for Unicode-tegn med kode større enn 0xFFFF. [ 1 ] Oracle implementerer fra og med versjon 8 CESU-8 med aliaset UTF8 , og fra og med versjon 9, standard UTF-8 med et annet alias. [ 7 ] Java og Tcl bruker denne kodingen. [ referanse nødvendig ]

Modifisert UTF-8

Med modifisert UTF-8 er null -tegnet kodet som 0xC080i stedet for 0x00. På denne måten vil ikke en tekst som inneholder null-tegnet inneholde byten 0x00og vil derfor ikke bli avkortet på språk som C som vurderer 0x00en slutt på strengen.

Alle kjente implementeringer av modifisert UTF-8 er også CESU-8-kompatible. [ referanse nødvendig ]

Fordeler og ulemper

Fordeler

UTF-8 lar deg kode alle Unicode-tegn. [ 1 ]
Den er kompatibel med US-ASCII, kodingen av 7-bits repertoaret er direkte.
Enkel identifikasjon. Det er mulig å tydelig identifisere et dataeksempel som UTF-8 ved hjelp av en enkel algoritme. Sannsynligheten for en korrekt identifikasjon øker med størrelsen på utvalget. [ 1 ]
UTF-8 vil spare lagringsplass for tekst med latinske tegn, der tegn inkludert i US-ASCII er vanlige, sammenlignet med andre formater som UTF-16. [ 8 ]
En sekvens av byte for ett tegn vil aldri være en del av en større sekvens for et annet tegn fordi den inneholder tidsinformasjon.

Ulemper

UTF-8 bruker symboler med variabel lengde; det betyr at forskjellige tegn kan kodes med forskjellige antall byte. Det er nødvendig å krysse strengen fra begynnelsen for å finne tegnet som opptar en bestemt posisjon.
Ideografiske tegn bruker 3 byte i UTF-8, men bare 2 i UTF-16. Dermed tar kinesiske, japanske eller koreanske tekster mer plass når de er representert i UTF-8. [ 8 ]
UTF-8 gir dårligere ytelse enn UTF-16 og UTF-32 når det gjelder beregningskostnad, [ 8 ] for eksempel i sorteringsoperasjoner.

Referanser

↑ a b c d e F. Yergeau (november 2003 ). "RFC 3629 - UTF-8, et transformasjonsformat av ISO 10646" . Internett-samfunnet . Hentet 20. mai 2009 .
^ "Flytter til Unicode 5.1" . Offisiell Google-blogg. 5. mai 2008 . Hentet 20. mai 2009 .
↑ Bruk av tegnkodinger for nettsteder
↑ H. Alvestrand (januar 1998 ). "<RFC 2277> - Offisiell IETF-policy for tegnsett og språk" . Internet Engineering Task Force . Hentet 20. mai 2009 .
^ "Bruk av internasjonale tegn i Internett-post" . Internet Mail Consortium. 1. august 1998 . Arkivert fra originalen 26. oktober 2007 . Hentet 20. mai 2008 .
↑ Unicode-konsortiet (oktober 2006). "2.5 EncodingForms" . I Julie D. Allen, Joe Becker (et al.), red. Unicode 5.0 standard (på engelsk) . Addison-Wesley. ISBN 0-321-48091-0 .
↑ Simon Law ( mai 2005 ). "Globaliseringsstøtte. Oracle Unicode-databasestøtte." . Oracle Corporation . Arkivert fra originalen 19. april 2009 . Hentet 20. mai 2009 .
↑ abc Unicode -konsortiet (oktober 2006). Julie D. Allen, Joe Becker (et al.), red. Unicode 5.0 standard (på engelsk) . Addison-Wesley. ISBN 0-321-48091-0 .

Se også

Eksterne lenker

RFC 3629 . UTF-8 standard (på engelsk).
Hello World Presentasjon av UTF-8 på USENIX vinteren 1993 av Rob C. Pike og Ken Thompson.
UTF-8-oppsett kommentert av Robert C. Pike .