UTF-16 (unicode transformation format 16)

Unicode Transformation Format 16 (UTF-16) bildet einen Kompromiss zwischen der Byte-aufwendigen Codierung UTF-32 und UTF-8 für die Umsetzung der ASCII-Zeichen. Bei UTF-16 werden die Zeichen mit 2 Byte im Double Byte Character Set (DBCS) codiert, wobei für alle Zeichen der Basic Multilingual Plane (BMP) 2 Byte ausreichen.


Reicht der codierbare Zeichenumfang von 65.536 Zeichen nicht aus, so können für darüber hinaus gehende Zeichen zwei weitere 16-Bit-Werte benutzt werden. Zeichensätze mit mehr als zwei Bytes gehören zu den Multibyte Character Sets (MBCS). Eine Erweiterung um 32 Bit entspricht sechzehn zusätzlichen 16-Bit-Planes. Wobei eine Plane einen 16 Bit umfassenden Codebereich darstellt. In der ISO-Terminologie wird der 32-Bit-Bereich in 256 Gruppen mit 256 Ebenen und 256 Reihen mit 256 Zeichen unterteilt. Jede Plane umfasst spezielle Sonderzeichen für Musik-, Schriften-, Sprachsymbole oder andere Spezialzeichen.

Für den täglichen Gebrauch in Verbindung mit den gängigen Sprachen reicht die Plane "0", die als Basic Multilingual Plane (BMP) bezeichnet wird. Das auf 16 Bit basierende UTF-16 kommt einigen Betriebsprogrammen wie diversen Windows-Versionen, die mit 16 Bit arbeiten, entgegen.

Informationen zum Artikel
Deutsch:
Englisch: unicode transformation format 16 - UTF-16
Veröffentlicht: 18.12.2011
Wörter: 169
Tags: #Zeichensätze
Links: ASCII-Zeichensatz, Bit (binary digit), BMP (basic multilingual plane), Byte, Codierung