UTF-8 (unicode transformation format 8)

Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen Standardbuchstaben und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei oder drei Byte. So werden die 127 Zeichen des ASCII-Zeichensatzes unverändert übernommen, wenn das Most Significant Bit (MSB) des ersten Byte eine "0" ist. Beginnt das erste Byte mit einer "1", dann handelt es sich um ein Zeichen des Unicode. Die Zeichensätze für die Codierungen mit zwei Bytes heißen Double Byte Character Sets (DBCS), die mit mehr als zwei Byte Multibyte Character Sets (MBCS).


Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten wird durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit einer 10-Kombination. Die Anzahl der Einsen vor der ersten "0" im ersten Byte kennzeichnet die Anzahl der Bytes des gesamten Zeichens.

UTF-8-Codierung 
   mit der Bildung von Byteketten

UTF-8-Codierung mit der Bildung von Byteketten

UTF-8 ist in RFC 3629 aus 2003 als "UTF-8, a Transformation Format of ISO 10646 F" beschrieben.

Informationen zum Artikel
Deutsch:
Englisch: unicode transformation format 8 - UTF-8
Veröffentlicht: 18.12.2011
Wörter: 177
Tags: #Zeichensätze
Links: Byte, Codierung, DBCS (double byte character set), DGT (digit), ISO (international organization for standardization)