Digitale Audioformate
Hermann Fritz
2. 7. 1999

Daß es derzeit so viele verschiedene digitale Audioformate gibt, hat drei Hauptursachen:

Die Datengröße (Speicherplatz) wird bestimmt durch

Kompression und Reduktion

Audiodateien brauchen relativ viel Speicherplatz. Es wurden daher Verfahren entwickelt, die Audiodaten komprimieren und reduzieren. Die echte Datenkompression ist verlustfrei (lossless compression), sie bringt keine Informations- und Qualitätseinbußen mit sich und ermöglicht eine volle Rekonstruktion des ursprünglichen Signals. Bei der Datenreduktion hingegen geht Information verloren (lossy compression), reduzierte Audiodaten können nicht wieder in den ursprünglichen Zustand zurücktransformiert werden. Wird z. B. eine MP3-Datei rücktransformiert zu einer Standard-WAV-Datei (44100 Hz Samplingfrequenz und 16 bit Stereo), so hat die WAV-Datei zwar wieder die ursprüngliche Größe in Megabyte, jedoch fehlen bestimmte (unhörbare oder kaum hörbare) Frequenzen, die nun ein Studiotechniker vielleicht anheben möchte, aber nicht kann, weil sie nicht mehr da sind. Zur Weiterverarbeitung im Studio, zu Schallanalysezwecken und für Schallarchive sind reduzierte Daten von Nachteil. Die Datenreduktion wird in der Literatur meist ebenfalls "Kompression" genannt, im Englischen wie im Deutschen. Damit wird verlustfreie Dekomprimierbarkeit suggeriert, wie sie z. B. beim Zip-Format (WinZip, PkZip, usw.) der Fall ist. Das Wahre an dieser Verwendung des Wortes "Kompression" ist lediglich, daß die üblichen datenreduzierten Formate auch zusätzlich komprimiert sind. Genauer gesagt: die Audiodaten werden auf eine Form reduziert, die sich gut komprimieren läßt. Entsprechende Computerprogramme besorgen Reduktion und Kompression in einem Aufwaschen. Geeignete Player können die komprimierten Daten in Echtzeit lesen und abspielen. Sehr verbreitet hat sich das MP3-Format. Es läßt mehrere Reduktionsverhältnisse zu. Bei einem Reduktionsverhältnis von 11:1 ist die Qualitätsminderung noch relativ gering.

U-law and A-law sind die U.S.- und internationalen Standards für logarithmic telephone sound compression.

Es ist möglich, Audiodaten lediglich zu komprimieren, ohne sie zu reduzieren. Die derzeit übliche Art der Kompression ist die Umwandlung von PCM in ADPCM, d.h. von pulse code modulation in additive pulse code modulation: Statt des samples ist die Differenz zum vorhergehenden sample dargestellt. Bei ADPCM werden also die Differenzen zwischen den PCM-Samples geschrieben. Der Encoder bzw. Player addiert dann die aufeinanderfolgenden Werte.

Eine 8-bit-PCM-Darstellung wird in eine 3-bit-ADPCM-Darstellung, eine 16-bit-PCM-Darstellung in eine 4-bit-ADPCM-Darstellung konvertiert. Das ADPCM-Format von Microsoft hat ebenso wie das PCM-Format die Endung *.wav und kann wie ein gewöhnliche WAV-Datei abgespielt werden. Es kann allerdings von EMAP nicht gelesen werden. Ein von mir angestellter File Compare zeigte, daß beim Konvertieren in ADPCM die Information leicht verändert wird.

Weitere komprimierten Formate, die sich direkt (ohne vorherige langwierige Dekompression) abspielen lassen, sind in Entwicklung begriffen. Eine Speicherplatzreduktion wesentlich unter 50% wird aber aus grundsätzlichen informationstheoretischen Erwägungen nicht zu erzielen sein.

Eine andere Möglichkeit verlustfreier Kompression ist die sich momentan stark verbreitende Rar-Kompression (ein anderer mathematischer Kompressionsalgorithmus als die bekanntere ZIP-Kompression). Mittels der Einstellung "Multimedia" senkt sie den Umfang von WAV-files bis auf ca. 60 %. Jedoch gibt es keinen Player, der das RAR-Format direkt abspielen kann, das sound file muß daher zuerst dekomprimiert werden, was Zeit und Speicherplatz kostet.

Eine Verringerung des Datenumfangs läßt sich also mit folgenden Umwandlungen erreichen:

A) verlustfrei (lossless compression):

RAR,  ZIP, etc.
    Direkt abspielbare Formate sind in Entwicklung begriffen: SfArk etc.


  B) mit kleinen Veränderungen:

PCM®ADPCM

  C) mit Verlust (lossy compression):