Zeichenkodierung
Leena Suhl
(unter Mitarbeit von
Atilla Yalcin)
Als Zeichenkodierung wird eine eindeutige Transformation von Zeichen wie Buchstaben oder sonstigen Symbolen in Zahlen oder Signale bezeichnet. Zeichenkodierung dient dazu, Informationen über ein bestimmtes Medium übermitteln, zu verarbeiten oder speichern zu können. Von der Zeichenkodierung ist die Verschlüsselung zu unterscheiden, deren Zweck es ist, Informationen für Unbefugte unkenntlich zu machen. Beispiele für frühe Formen der Kodierung sind Rauchzeichen zur Nachrichtenübermittlung über weite Strecken bei den Indianern sowie der Morse-Code. Die von Samuel Morse in 1833 entwickelte Kodierung wandelt Zeichen in kurze und lange Signale um. Die Zeichenfolge einer Nachricht werden voneinander durch Pausen getrennt. Bei dieser Form der Kodierung ist es prinzipiell unerheblich, welche Art von Medium zur Übertragung von Nachrichten genutzt wird; sowohl Ton-, Funk- als auch Lichtsignale sind möglich. Durch die Telegraphie fand das Morse-Alphabet weite Verbreitung und wurde erst mit dem Aufkommen der Telefontechnik weitgehend abgelöst. Dennoch legt der Morse-Code in Bezug auf die heutige Zeichenkodierung einen Grundstein, mit dem die moderne Informationsverarbeitung erst möglich wurde. Die Zeichenkodierung ist eine Grundvoraussetzung für die Verarbeitung von Information mit elektronischen Medien. Da Computer lediglich in der Lage sind, Operationen auf Zahlen auszuüben, müssen alle Zeichen numerisch kodiert werden. Der Umfang der benötigten Kodierung hängt von der erforderlichen Zeichenmenge einer verwendeten Sprache ab. Bei einem Alphabet von 26 Kleinbuchstaben kommen ebenso viele Großbuchstaben hinzu; ebenfalls müssen die Ziffern 0-9, Leerzeichen, Satzzeichen (Komma, Semikolon, Punkt) sowie einige weitere Spezialzeichen kodiert werden. Hinzukommen noch weitere Steuerungszeichen, die nicht sichtbar sind. Formen der ZeichenkodierungBekannte Kodierungen sind der American Standard Code for Information Exchange (ASCII) und der Unicode, letzter auch und gerade in Form des UTF-8. Vor allem auf IBM-Großrechnern fand und findet sich der Extended Binary Coded Decimals Interchange Code (EBCDIC). Der ASCII wurde ursprünglich als Standard mit einer 7-Bit-Zeichenkodierung definiert und deckte alle Zeichen der englischen Sprache ab. Für Sonderzeichen in anderen Sprachen wurden später spezifische Erweiterungen vorgenommen und die Kodierung auf 8-Bit erweitert. Allerdings haben sich dadurch Kompatibilitätsprobleme ergeben, da jeder Sprachraum seine eigene Kodierung hatte. Zur Lösung dieses Problems einer weltweit einheitlichen Kodierung entstand ein neuer Standard, der Zeichen aller Sprach- und Kulturräume berücksichtigt und zu einem universellen Code zusammenfasst, der Unicode. Der Unicode ist als Ergebnis der Arbeit vom Unicode-Konsortium entstanden, das seit seiner Gründung ständig daran arbeitet, neue Versionen und Erweiterungen zu verabschieden. Zur Standardisierung eines Zeichensatzes bei der weltweiten Datenübertragung wurde der Unicode von der ISO als Universal Character Code (UCS) normiert. LiteraturW. F. Bohn, T. Flik: Zeichen und Zahlendarstellung. In: P. Rechenberg, G. Romberger (eds.); Informatik-Handbuch. 2., erw. Auflage. München; Wien: Hanser, 1999. H. P. Gumm. M. Sommer: Einführung in die Informatik. 8. Auflage. München: Oldenbourg Wissenschaftsverlag, 2009. Autor![]() Prof. Dr. Leena Suhl, Universität Paderborn, DS&OR Lab, Warburger Str. 100, 33098 Paderborn |