UCS-Zeichensatz

Universal Character Set (UCS) ist ein nach ISO 10646 standardisierter Zeichensatz, der 32 Bits, resp. 4 Byte, pro Zeichen hat. Die 4.294.967.296 Möglichkeiten des UCS-Codes bieten hinreichend Platz für die unterschiedlichsten Sprachen, Zeichen und Bildzeichen. Da dieser Zeichensatzumfang nicht mehr in einer Codetabelle dargestellt werden kann, ist beim UCS-Zeichensatz die Sprach- und Zeichenzuordnung in 128 Gruppen, 256 Ebenen, 256 Spalten mit 256 Zellen gegliedert. Mit diesem umfangreichen Adressraum können alle Schriftzeichen in allen Sprachen abgebildet werden.

Der UCS-Zeichensatz ist aus dem ASCII-Code und dem Unicode hervorgegangen. Es gibt verschiedene USC-Codes, so den USC-2, bei dem jedes Zeichen durch 2 Bytes codiert ist oder den USC-4, dessen Zeichen aus 4 Bytes bestehen. Mit UCS-2 können alle Unicode-Zeichen dargestellt werden, deren Nummer unter 65.536 liegt. Der USC-4-Code kann insgesamt 128 x 256 x 256 x 256 Zeichen darstellen. Dabei bleibt das erste Bit des ersten Byte ungenutzt, daher die 128.

Informationen zum Artikel
Deutsch: UCS-Zeichensatz
Englisch: universal character set - UCS
Veröffentlicht: 18.02.2011
Wörter: 137
Tags: #Zeichensätze
Links: Adressraum, Bit (binary digit), Byte, ISO (international organization for standardization), Sprache