- Info
Unicode
Unicode ist ein universeller Standard für die Kodierung von Zeichen in der Datenverarbeitung
Unicode ist ein
universeller Standard für die Kodierung von Zeichen in der Datenverarbeitung.
Die Kodierung von Zeichen ist notwendig, um etwa alphanumerische Zeichen für
Computer eindeutig zu referenzieren. Das Ziel von Unicode ist die Kodierung
jedes Schriftzeichens bzw. Textelementes aller bekannten Schriftkulturen und
Zeichensysteme.
Eine erste Version
des Unicode Standards wurde 1991 definiert und umfasste zunächst Kodierungen
der Zeichen aus europäischen, nahöstlichen und indischen Schriften. In den letzten
Jahren sind jeweils ungefähr 1000 Zeichen pro Jahr in den Standard aufgenommen
worden. Die Unicode Version 5.1 aus dem Jahr 2008 kodiert in etwa 100 000
Zeichen. In Unicode wird ein Zeichen mit bis zu 32 Bit kodiert. Theoretisch ist
damit die Kodierung von mehr als 4 Billionen Zeichen möglich.
Die Internationale
Organisation für Normung (ISO) führt den durch Unicode festgelegten Zeichensatz
unter der Bezeichnung ISO-10646. Beide Kodierungen wurden ursprünglich getrennt
voneinander entwickelt und erst 1993 miteinander synchronisiert. Im Vergleich
zu ISO-10646 legt Unicode weitere Eigenschaften wie Sortierreihenfolge,
Leserichtung und Regeln für das Kombinieren von Zeichen fest. Die Kombination
von Zeichen ermöglicht es, etwa den deutschen Umlaut „ü“ (U+00FC) aus dem „u“
(U+0075) und dem Zeichen „¨“ (U+0308) zu erstellen. Aus Kompatibilitätsgründen
mit dem Kodierungsstandard „Latin-1“ ist das „ü“ allerdings auch direkt im
Unicode Zeichensatz enthalten.
Zusätzlich zur Kodierung
von Zeichen definiert Unicode die Repräsentation dieser Zeichen in Bitfolgen. Dazu
dienen die drei Implementierungen „UTF-8“, „UTF-16“ und „UTF-32“. Sie benötigen
maximal 32 Bit für die Abbildung eines Zeichens. Welcher der drei Standards zum
Einsatz kommt, hängt vom Fokus der Anwendung auf Verarbeitungs- oder
Speichereffizienz ab. Als eine Kodierung mit variabler Länge ermöglicht UTF-8
die Abbildung von Zeichen durch die minimal notwendige Anzahl von Bit, während
UTF-32 immer die vollen 32 Bit für die Abbildung verwendet.
Autor
Prof. Dr. Dirk Christian Mattfeld, Technische Universität Braunschweig, Institut für Wirtschaftsinformatik, Lehrstuhl für Entscheidungsunterstützung, Mühlenpfordtstraße 23, 38106 Braunschweig
Autoreninfo
Zuletzt bearbeitet: 29.09.2020 12:29
Letzter Abruf: 17.01.2021 10:37