Benutzerspezifische Werkzeuge

Audioformate

Audioformate beschäftigen sich mit der digitalen Repräsentation von Tonsignalen. Dabei geht es zunächst um die Digitalisierung des ursprünglich meist analogen Signals. In der Folge werden bei verlustbehafteten Verfahren zur Erzielung hoher Kompressionsraten für den Menschen nicht wahrnehmbare Signalteile gezielt weggelassen.

Digitalisierung von Schallwellen

Beim Spielen von Musikinstrumenten wie auch beim normalen Sprechen entstehen Schallwellen. Diese entsprechen Druck- und Dichteschwankungen in einem elastischen Medium und können z.B. von einem Mikrofon in elektrische Spannungsänderungen umgesetzt werden. Das entstehende analoge Signal muss zur Verwaltung im Rechner digitalisiert werden.

Hierzu wird das Signal zu bestimmten Zeitpunkten abgetastet (zeitliche Diskretisierung, Sampling). Nach dem Abtasttheorem muss die Anzahl der Abtastpunkte doppelt so hoch sein wie die höchste im zu digitalisierenden Signal vorhandene Frequenz, um das Ursprungssignal ohne Informationsverlust rekonstruieren zu können. Da der von Menschen wahrgenommene Frequenzbereich von 16 Hz bis 20.000 Hz (20 kHz) reicht, bedeutet dies, dass für eine gute Qualität eine Abtastrate von über 40 kHz erforderlich ist. Bei der Audio-CD werden z.B. 44,1 kHz genutzt.

Die einzelnen abgetasteten Werte des Signals müssen dann digital codiert werden (Wertdiskretisierung). Bei einer CD werden hierfür 16 Bit pro Wert genutzt. Abbildung 1 veranschaulicht die Digitalisierung des analogen Signals.

Digitalisierung des analogen Signals

Abbildung 1: Digitalisierung eines analogen Signals

Berücksichtigt man, dass bei einem Audiosignal zwei Kanäle für Stereosignale benötigt werden, so ergibt sich eine unkomprimierte Datenrate von 44.100 Hz * 16 Bit * 2 Kanäle = 1.411.200 Bit oder 176.400 Byte pro Sekunde. Für eine Spielzeit von 74 Minuten bedeutet dies ein Datenvolumen von ca. 747 MB.

Psychoakustik

Will man eine Audiodatei kompakter repräsentieren, so kann man allgemeine verlustfreie Verfahren der Datenkompression einsetzen. Dabei ist das ursprüngliche Signal abgesehen von den Digitalisierungsverlusten durch das Sampling und die Wertdiskretisierung stets rekonstruierbar. Auf der anderen Seite kann ein Mensch aber akustisch gar nicht alle Details des Audiosignals wahrnehmen:

  • Hörschwelle: Der Mensch nimmt Töne in den verschiedenen Frequenzbereichen erst ab einem gewissen Schalldruck - gemessen in Dezibel (dB) - wahr. So ist z.B. ein Ton von 50 Hz mit 20 dB für einen Menschen nicht wahrnehmbar, während er einen Ton von 500 Hz mit 20 dB hören kann.
  • Simultane Maskierung: Ist im Audiosignal neben einem Ton mit einer bestimmten Frequenz und einer bestimmten Lautstärke zeitgleich ein Ton mit einer geringfügig anderen Frequenz und deutlich geringerer Lautstärke enthalten, so wird nur der lautere Ton wahrgenommen.
  • Zeitliche Maskierung: Neben der simultanen Maskierung lösen laute Töne auch eine zeitliche Maskierung aus, die dazu führt, dass vor und nach einem Ton im Signal enthaltene leisere Töne nicht wahrgenommen werden können.
Hörschwelle und simultane Maskierung

 

Abbildung 2: Hörschwelle und simultane Maskierung

Formate zur verlustbehafteten Audiodatenkompression

Um die Charakteristika der menschlichen Wahrnehmung ausnutzen zu können wird das Audiosignal in Teilsignale zerlegt, die jeweils nur Töne in einem bestimmten Frequenzband enthalten. Durch entsprechende Mechanismen wird dann in der Noise Allocation entschieden, mit wie vielen Bits die einzelnen Frequenzbänder kodiert werden. Dazu wird in einem iterativen Prozess die Zuordnung der Bits zu den Frequenzbändern variiert um die durch den Menschen wahrnehmbaren Störungen zu minimieren.

MP3 steht für MPEG-1 Audio Layer 3 und wurde ab 1982 zur Kodierung der Audioinformationen für Videos von einer Gruppe um Karlheinz Brandenburg am Fraunhofer-Institut für Integrierte Schaltungen (IIS) in Erlangen entwickelt.

Bei Audioformaten, die nach diesem Prinzip vorgehen (z.B. MP3), werden asymmetrische Kodierungsverfahren eingesetzt, weil bei der Kodierung durch die Optimierung ein hoher Aufwand entsteht, der dazu führt, dass diese in der Regel nicht (oder nur bei reduzierter Qualität) in Echtzeit erfolgen kann. Bei der Dekodierung muss dagegen lediglich durch eine Überlagerung der Signale aus den einzelnen Frequenzbändern das Gesamtsignal bestimmt werden. Dies kann in Echtzeit erfolgen.

Die verschiedenen Formate und die verschiedenen Codecs unterscheiden sich primär in den Verfahren zur Aufteilung des Signals in Frequenzbänder und in den Verfahren zur Noise Allocation.

MIDI

MIDI (Music Instrument Digital Interface) ist eine seit 1983 von der Musikindustrie verwendete Schnittstellendefinition, die die Übertragung kodierter Musiksignale zwischen elektronischen Musikinstrumenten (und Rechnern) erlaubt. An Stelle von Abtastwerten wird hier eine instrumentenbezogene Kodierung verwendet. Diese Kodierung beinhaltet u. a. die Bezeichnung des Instruments, den Beginn und das Ende einer Note, die Grundfrequenz und die Lautstärke. Damit ist eine sehr kompakte Kodierung von Audioinformationen möglich, die aber auf einen bestimmten Einsatzzweck beschränkt ist.

Literatur

Henning, Peter A.: Taschenbuch Multimedia. 4. Auflage. München : Carl Hanser Verlag, 2007.

Chapman, Nigel ; Chapman, Jenny: Digital Multimedia. 2nd edition. Chichester : John Wiley & Sons, 2004.

Autor


 

Prof. Dr. Andreas Henrich, Otto-Friedrich-Universität Bamerg, Lehrstuhl Medieninformatik, Feldkirchenstraße 21, 96045 Bamberg

Autoreninfo


Zuletzt bearbeitet: 26.09.2014 09:08
Letzter Abruf: 23.11.2017 19:40
Artikelaktionen