Benutzerspezifische Werkzeuge

Unicode

Unicode ist ein universeller Standard für die Kodierung von Zeichen in der Datenverarbeitung

Unicode ist ein universeller Standard für die Kodierung von Zeichen in der Datenverarbeitung. Die Kodierung von Zeichen ist notwendig, um etwa alphanumerische Zeichen für Computer eindeutig zu referenzieren. Das Ziel von Unicode ist die Kodierung jedes Schriftzeichens bzw. Textelementes aller bekannten Schriftkulturen und Zeichensysteme.

Eine erste Version des Unicode Standards wurde 1991 definiert und umfasste zunächst Kodierungen der Zeichen aus europäischen, nahöstlichen und indischen Schriften. In den letzten Jahren sind jeweils ungefähr 1000 Zeichen pro Jahr in den Standard aufgenommen worden. Die Unicode Version 5.1 aus dem Jahr 2008 kodiert in etwa 100 000 Zeichen. In Unicode wird ein Zeichen mit bis zu 32 Bit kodiert. Theoretisch ist damit die Kodierung von mehr als 4 Billionen Zeichen möglich.

Die Internationale Organisation für Normung (ISO) führt den durch Unicode festgelegten Zeichensatz unter der Bezeichnung ISO-10646. Beide Kodierungen wurden ursprünglich getrennt voneinander entwickelt und erst 1993 miteinander synchronisiert. Im Vergleich zu ISO-10646 legt Unicode weitere Eigenschaften wie Sortierreihenfolge, Leserichtung und Regeln für das Kombinieren von Zeichen fest. Die Kombination von Zeichen ermöglicht es, etwa den deutschen Umlaut „ü“ (U+00FC) aus dem „u“ (U+0075) und dem Zeichen „¨“ (U+0308) zu erstellen. Aus Kompatibilitätsgründen mit dem Kodierungsstandard „Latin-1“ ist das „ü“ allerdings auch direkt im Unicode Zeichensatz enthalten.

Zusätzlich zur Kodierung von Zeichen definiert Unicode die Repräsentation dieser Zeichen in Bitfolgen. Dazu dienen die drei Implementierungen „UTF-8“, „UTF-16“ und „UTF-32“. Sie benötigen maximal 32 Bit für die Abbildung eines Zeichens. Welcher der drei Standards zum Einsatz kommt, hängt vom Fokus der Anwendung auf Verarbeitungs- oder Speichereffizienz ab. Als eine Kodierung mit variabler Länge ermöglicht UTF-8 die Abbildung von Zeichen durch die minimal notwendige Anzahl von Bit, während UTF-32 immer die vollen 32 Bit für die Abbildung verwendet.

Autor


 

Prof. Dr. Dirk Christian Mattfeld, Technische Universität Braunschweig, Institut für Wirtschaftsinformatik, Lehrstuhl für Entscheidungsunterstützung, Mühlenpfordtstraße 23, 38106 Braunschweig

Autoreninfo


Zuletzt bearbeitet: 26.09.2014 10:07
Letzter Abruf: 30.05.2017 00:50
Artikelaktionen