UTF-8 :: unicode transformation format 8 :: ITWissen.info

Registrieren Sie sich schon jetzt, um zukünftig unsere erweiterten Serviceangebote nutzen zu können.Hier geht es zur Registrierung

UTF-8 (unicode transformation format 8)

Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen Standardbuchstaben und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei oder drei Byte. So werden die 127 Zeichen des ASCII-Zeichensatzes unverändert übernommen, wenn das Most Significant Bit (MSB) des ersten Byte eine "0" ist. Beginnt das erste Byte mit einer "1", dann handelt es sich um ein Zeichen des Unicode.


<< Anzeige >>

UTF-8-Codierung mit der Bildung von Byteketten
UTF-8-Codierung mit der Bildung von Byteketten lexikon, kompendium, computer, it, elektronik

Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten wird durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit einer 10-Kombination. Die Anzahl der Einsen vor der ersten "0" im ersten Byte kennzeichnet die Anzahl der Bytes des gesamten Zeichens.

UTF-8 ist in RFC 3629 aus 2003 als "UTF-8, a Transformation Format of ISO 10646 F" beschrieben.

Twitter - Folgen Sie uns!


Erlesene Technik-News von ITWissen als IT Quickies - in 140 Zeichen auf Twitter.
Folgen Sie uns!



Unsere Partner

Digitalisierung von Video, Dia&#039;s und Foto&#039;s

Werbung