unicode transformation format 8
UTF-8
Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen Standardbuchstaben und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei oder drei Byte. So werden die 127 Zeichen des ASCII-Zeichensatzes unverändert übernommen, wenn das Most Significant Bit (MSB) des ersten Byte eine "0" ist. Beginnt das erste Byte mit einer "1", dann handelt es sich um ein Zeichen des Unicode.
![]() |
UTF-8-Codierung mit der Bildung von Byteketten ![]() |
Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten werden durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit einer 10-Kombination. Die Anzahl der Einsen vor der ersten "0" im ersten Byte kennzeichnet die Anzahl der Bytes des gesamten Zeichens.
UTF-8 ist in RFC 3629 aus 2003 als "UTF-8, a Transformation Format of ISO 10646 F" beschrieben.
Querverweise von unicode transformation format 8 nach:
Querverweise nach unicode transformation format 8 von:

IT-Wissen Blogs
04.07.08, IT-Sicherheit

E-Book der Woche

IT-Jobs

Interessante Artikel

Weitere Informationen















