Grundlegendes

Inhaltsverzeichnis
Schall ist physikalisch gesehen die Schwankung der Moleküle eines Mediums um eine Mittellage. Mit der Bewegung geht eine Druckänderung einher. (Man betrachtet in der Schallphysik die zwei Größen "Schallschnelle" und "Schalldruck"). Die momentane Abweichung von der Mittellage heißt Auslenkung oder Elongation. Man unterscheidet die Auslenkung des Druckes p und die Auslenkung der Schnelle v. Beide ändern sich als Funktion der Zeit t: p(t) und v(t).

Periodische Luftdruckschwankung hören wir als Ton oder Klang, aperiodische als Rauschen oder Rumpeln. Periodische Schwankungen sind solche, die sich in der selben Form wiederholen. Je nach Form spricht man von Sägezahnschwingungen, Rechteckschwingungen, Sinusschwingungen etc. Ein einzelner sich wiederholender Formabschnitt heißt Periode, ihre Zeitdauer T heißt Periodendauer. Die maximale Auslenkung im Verlauf einer Periode heißt Schwingungsweite oder Amplitude.

Die Frequenz ist die Anzahl der Perioden pro Sekunde, sie wird in Hertz gemessen, abgekürzt Hz. Zum Beispiel 440 Hz = 440 Schwingungen pro Sekunde (eingestrichenes A der Stimmgabel).

Die Frequenz f läßt sich aus der Periodendauer T berechnen und umgekehrt:

f = 1/T  und  T = 1/f.

Ein Mikrophon wandelt die Schwankungen des Schalldrucks und der Schallschnelle in Spannungs- und Stromstärkeschwankungen um. So entstehen elektrisch übertragbare Audiodaten, die mechanisch (z. B. Schallplatte), magnetisch (z. B. Tonband) oder optisch (z. B. Tonfilm) gespeichert werden können.

Audiodaten existieren in zwei grundsätzlich verschiedenen Formen: analog und digital. Sie können in beiderlei Form übertragen und gespeichert werden.

Analoge Audiodaten zeichnen die Form der Schallwellen nach (z. B. Rillen der Schallplatte, Wechselstrom im Mikrophon- oder Lautsprecherkabel).


Sinuskurve
Abb. 1: Spannung an einem Audio-Ausgang: Sinusschwingung mit der
Amplitude A = 4,5 V und der Periodendauer T = 0,128 msec.
f = 1/T = 1 / 0,000128 sec = 7812,5 sec –1 = 7812,5 Hz


Digitale Audiodaten beschreiben die Schallwelle durch eine Folge von Zahlen.

Analog-Digital-Wandler konvertieren analoge Daten in digitale. DAT-Geräte und Computer-Soundkarten haben solche Wandler.

Digital-Analog-Wandler konvertieren in die umgekehrte Richtung.
(z. B. CD-, DAT-Band- oder Computer-Audiodaten umwandeln für einen Lautsprecher oder Kopfhörer).

Ein bit ist das Maß für die Information: die Entscheidung zwischen 0 und 1, ferner eine Stelle in einer Binärzahl. Binäre Audiodaten stellen Schall als Folge von Binärzahlen dar, z. B. 00010100; 00011000; 00011100; 00100011 usw. (8 Stellen bei 8-bit-Darstellung, 16 Stellen bei 16-bit-Darstellung).

Ein Sample ist ein Meßwert: eine ganze Zahl, die die Elongation der Schwingung zu einem bestimmten Zeitpunkt beschreibt.

Beim 16-bit-Format (Standard) stehen zur Beschreibung der Elongation 216 = 65536 ganzzahlige Werte zur Verfügung, beim 8-bit-Format nur 28 = 256. In Studios wird bereits das 24-bit-Format verwendet. Der allgemeine Wertebereich eines n-bit-Formats ist   –2n–1,... 0, ... +2n–1 –1

Beim Runden auf ganze Zahlen gehen die Zwischenwerte verloren. Dieser sogenannte Quantisierungsfehler beträgt maximal 1 bit. Er erzeugt das digitale Rauschen. In Abb. 2 und Abb. 3 sind die Quantisierungsfehler beim genauen Hinsehen deutlich zu erkennen. Das 16-bit-Format beschreibt die Kurve erheblich genauer als das 8-bit-Format, weil die Abstufung feiner ist, d. h. zur Beschreibung desselben Kurvenstücks 256 mal soviel ganze Zahlen zur Verfügung stehen als beim 8-bit-Format.


digitalisierte Sinusschwingung
Abb. 2: Veranschaulichung einer Folge von 8-bit-Samples, die eine Sinusschwingung beschreiben.


Die Samplingfrequenz oder sampling rate sr ist die Anzahl der Samples pro Sekunde.

Bei der CD ist sr = 44100 Hz, R-DAT-Geräte beherrschen zudem sr = 48000 Hz und 32000 Hz (long play modus). Studiogeräte mit Samplingraten von 96000 Hz sind bereits am Markt.

Das Samplingtheorem (Shannon, Nyquist) besagt, daß die Samplingrate höher sein muß wie die höchste darzustellende Schallfrequenz:

sr > 2 fmax

Tonfrequenzen, die höher sind als die Hälfte der Samplingfrequenz, sind in der digitalen Darstellung nicht unterscheidbar sind von Tonfrequenzen, die um denselben Betrag tiefer sind. Digitale Aufnahmegeräte haben daher normalerweise ein Tiefpaßfilter, das die Frequenzen, die größer als  sr  sind, eliminiert.

Beim long play modus eines R-DAT-Gerätes  (sr = 32 KHz) ist somit  fmax = 16000 Hz, eine Frequenz, die bei jungen Menschen unterhalb der Hörgrenze (ca. 20000 Hz) liegt.

Datenfluß wird in bit/sec ausgedrückt und wie folgt berechnet:

Datenmenge / sec = Anzahl der bits pro sample mal sr mal nch.
Hierbei ist nch die Anzahl der Kanäle (number of channels).

Beispiel: 16 bit * 44100Hz * 2 Kanäle = 1411200 bit/sec

Speicherplatz hingegen wird in Bytes, Kilobytes, Megabytes und Gigabytes ausgedrückt, wobei folgende Umrechnungen gelten:

1 Byte = 8 bit
1 KB = 1024 Bytes = 210 Bytes
1 MB = 1024 KB = 220 Bytes
1 GB = 1024 MB = 230 Bytes

"Kilo" heißt hier nicht "1000", sondern "1024"!

Ein 8-bit-Sample besetzt also 1 Byte Speicherplatz,
ein 16-bit-Sample besetzt 2 Bytes.

Benötigter Speicherplatz (in Bytes) = Samplingfrequenz mal Anzahl der Kanäle mal Zeit (in Sekunden) mal Anzahl der bits pro Sample dividiert durch 8.

Zeit (in Sekunden) = Speicherplatz (in Bytes) dividiert durch (Samplingfrequenz mal Anzahl der Kanäle mal Anzahl der Bits pro Sample dividiert durch 8).

"Anzahl der Bits pro Sample dividiert durch 8" = 2, wenn ein 16-bit-file vorliegt,

"Anzahl der Bits pro Sample dividiert durch 8" = 1, wenn ein 8-bit-file vorliegt.

Beispiel: Speicherplatz einer CD:

(16 bit/sample) * 44100 Hz * 74 min = 2 Bytes * 44100 sec–1* 74 * 60 sec = 391608000 Bytes = 373,47 MB.

Beispiel: Speicherplatz einer DAT-Kassette:

2 Bytes * 48000 Hz * 2Kanäle * 2 Stunden = 1382400000 Bytes = 1,28746 GB.

a) Zum Vergleich: Eine Diskette hat 1,44 MB. Darauf haben bei sr = 48000 Hz etwa 7 Sekunden Stereo-Musik Platz.

b) Zum Vergleich: Eine Jaz-Drive Wechselfestplatte hat 1 GB. Darauf hat ca 1 ½ Stunden Musik Platz bei 48000 Hz und Stereo.

c) Zum Vergleich: Eine 4-Gigabyte-Festplatte sei zweigeteilt, d. h. sie habe 2 logische Laufwerke zu je 2 Gigabyte, eine C- und eine D-Platte. Auf der C-Platte befinden sich die Programme, auf der D-Platte die Anwenderdaten. Auf der D-Platte haben gute 3 Stunden Musik Platz.


Audiofileformate
Inhaltsverzeichnis
PCM = pulse code modulation (Standard-Darstellung): Zwei Arten, die eine stellt die Wellenform mit positiven und negativen Zahlen dar, die andere ausschließlich mit positiven Zahlen.

ADPCM = additive PCM. Sie beginnt mit einem Anfangswert und addiert und subtrahiert, um die folgenden Werte darzustellen.

Darüberhinaus gibt es noch andere Codierungsarten.

Der "Kopf" (head) einer Audiodatei enthält Anweisungen darüber, wie die Zahlenkette des body zu decodieren sind. Z. B. "Wav" von Microsoft: hat im head 44 vorprogrammierte Zeichen: sr, nch, bit per sample etc.


Soundkarten

Inhaltsverzeichnis
Die in den meisten PCs installierte "Soundblaster"-Karte hat einen analogen Eingang und Ausgang. Sie verarbeitet 8- und 16-bit-Files Stereo und Mono, sr ist beliebig ganzzahlig einstellbar bis maximal 44,1 KHz. Durch Umdefinieren der sr von 44100 auf 22050 Hz können sound files in halber Geschwindigkeit abgespielt werden, was etwa beim Transkribieren von Vorteil sein kann.

Professionellere Soundkarten haben einen Digitaleingang und -ausgang, wie z. B. die ebenfalls im Schallanalysecomputer installierte "Multi!Wav"-Karte, die mit 32 KHz, 44,1 KHz und 48 KHz Stereo und Mono arbeitet. Mittels Digitaleingang können digitale Audiodaten von DAT-Kassette und CD verlustfrei in den Computer hineingespielt werden.


Konvertieren

Inhaltsverzeichnis
Oft ist es z. B. notwendig, von sr = 48000 Hz (DAT-Kassette) auf sr = 44100 Hz (CD) zu konvertieren. Dabei soll sich die Tonhöhe der Aufnahme nicht verändern:

Die eine Möglichkeit ist die digitale Umrechnung der Daten. Soll die sampling rate erniedrigt werden ("down sampeln"), so sollte vorher ein Tiefpaßfilter angewendet werden (siehe Samplingtheorem). Das Filter sollte eine möglichst steile Kennlinie haben, d. h. es soll möglichst scharf zwischen höheren und tieferen Frequenzen trennen. Auch beim "Up-Sampeln" wird ein Filter benötigt, u. zwar um das Signal zu glätten.

Die andere Möglichkeit ist, das Signal zu analogisieren und dann mit der neuen Samplingfrequenz wieder zu digitalisieren. Hier entsteht allerdings das Problem, daß das Signal neu kalibriert (= der Pegel ausgesteuert) werden muß. Zudem haben sogar Profigeräte mitunter schlechte Analog-Digital-Wandler. (Die Digital-Analog-Wandler sind meistens besser).
(Filter haben Verzerrungen und verzerrungsarme, steile Filter benötigen viel Rechenzeit. Daher wird nicht selten von dieser zweiten Möglichkeit, dem Umweg Analogisierung-Redigitalisierung, Gebrauch gemacht).


Intervallmaß und Schalleistungspegel

a) Zusammenhang zwischen Frequenzskala und musikalischer Intervallskala
(Hertz und Halbtöne)
Inhaltsverzeichnis
Einer wiederholten Verdopplung der Frequenz entspricht jeweils ein gleichgroßer Schritt auf der Oktavenskala (bzw. 12 Schritte auf der temperierten Halbtonskala), einer wiederholten Vereineinhalbfachung jeweils ein Schritt auf der Quintenskala. Allgemein erzeugt jede wiederholte Ver-x-fachung der Frequenz fortlaufende äquidistante Schritte auf der Intervallskala. Das frequenzmäßig Multiplikative wird musikalisch-intervallmäßig als Additives gehört. Diejenige mathematische Funktion, die genau dies simuliert, ist der Logarithmus. Im Prinzip wäre jeder Logarithmus geeignet. Der Zweierlogarithmus (logarithmus dualis, abgekürzt ld) hat den speziellen Vorteil, daß er auch die psychologische Oktav-Identität adäquat ausdrückt.

Musikalisch orientierte Schallanalyseprogramme rechnen mithilfe des Zweierlogarithmus die Frequenzverhältnisse (f1 : f0) in Oktaven und diese dann weiter in Halbtöne und Cents um:

Intervall (zwischen f0 und f1) = ld (f1/f0) Oktaven

Intervall (zwischen f0 und f1) = 12 ld (f1/f0) Halbtöne.

Z. B.: Intervall zwischen 440 Hz und 660 Hz = 12 ld (660 Hz / 440 Hz)
= 12 ld (3/2) = 7,02 Halbtöne (nichttemperierte reine Quint).

Unterteilt man den Halbton weiter in 100 gleiche Teile (cents), so lautet die Formel:

Intervall (zwischen f0 und f1) = 1200 ld (f1 / f0) cents.

(1 cent ist ein Hundertstel eines Halbtones und ein Zwölfhundertstel einer Oktav). Das Analyseprogramm EMAP verbindet diese drei Darstellungsweisen: Es gibt an, in der wievielgestrichenen Oktav sich der Ton befindet, es zeigt den Halbton an (C, Cis, D usw.) und es gibt an, um wieviel cents der Ton tiefer oder höher ist als seine Normtonhöhe. (Diese leitet sich in gewohnter Weise aus f0 = 440 Hz (eingestrichenes A) und aus der gleichmäßig temperierten Zwölftonstimmung ab).

Umgekehrte Umrechnung: f1 = f0 * 2Intervall, wobei "Intervall" in Oktaven auszudrücken ist, d. h. die Halbtöne und Cents sind zuerst in Oktaven umgzurechnen und dann in die Formel einzusetzen.

Z. B. die Frage: Wie groß ist die Frequenz eines um einen Viertelton zu tiefen kleinen d (in Bezug auf das eingestrichene a' mit 440 Hz)?
–1 Oktav – temperierte Quint – Viertelton =
–1 Oktav – 7/12 Oktav – 50/1200 Oktav,   also ist
f1 = 440 Hz * 2 – 1 – 7/12 – 50/1200   = 142,65 Hz


b) Zusammenhang zwischen Schalldruck und Schalleistungspegel
(Newton/m², Watt und Dezibel)

Inhaltsverzeichnis
Das physikalische Maß für den Schalldruck p (pressure) ist das Newton pro Quadratmeter (N/m²),

für die Schalleistung P (Power) das Watt (W)

und für den Schalleistungspegel das Dezibel (dB).

Einer wiederholten Ver-x-fachung der Schalleistung entsprechen in etwa gleich große Schritte auf der subjektiven Lautheitsskala. Das Dezibelmaß beruht (im Unterschied zu den auf dem logarithmus dualis basierenden musikalischen Intervallmaßen) gänzlich auf dem Zehnerlogarithmus lg und dem Dezimalsystem. Es leitet sich von folgender Definition ab:

Schalleistungspegel (P1, P0) = lg (P1/P0) Bel

(Bei Verzehnfachung (P1:P0=10) ist der Schalleistungspegel genau 1 Bel wegen lg 10 = 1).

Das Bel wird nun in 10 dezi-Bel geteilt: 1 Bel = 10 dB.

Schalleistungspegel (P1:P0) = 10 lg (P1/P0) dB.

In der Praxis wird nicht die Schalleistung P, sondern der Schalldruck p gemessen weil er sich (bzw. die zu ihm proportionale elektrische Spannung U) einfacher messen läßt. Und da die Schalleistung zum Quadrat des Schalldrucks proportional ist, ergibt sich wegen log x² = 2 log x die folgende Formel:

Schalleistungspegel = 20 lg (p1/p0) dB

Der Schalleistungspegel wird oft fälschlich "Schalldruckpegel" genannt.

2¹-facher  =  2-facher Schalldruck:  ~ 6 dB
2²-facher  =  4-facher Schalldruck: ~12 dB
2³-facher  =  8-facher Schalldruck: ~18 dB
24-facher = 16-facher Schalldruck: ~24 dB
25-facher = 32-facher Schalldruck. ~30 dB
26-facher = 64-facher Schalldruck: ~36 dB
27-facher = 128-facher Schalldruck: ~42 dB
28-facher = 256-facher Schalldruck: ~48 dB   (8-bit-Format)
29-facher = 1024-facher Schalldruck: ~54 dB
210-facher = 2048-facher Schalldruck: ~60 dB
usw. bis
216-facher = 65536-facher Schalldruck: ~96 dB   (16-bit-Format)
224-facher = 16777216-facher Schalldruck: ~144 dB   (24-bit-Format)

1-facher Schalldruck ......0 dB
10-facher Schalldruck: 20 dB
100-facher Schalldruck: 40 dB
1000-facher Schalldruck: 60 dB
10000-facher Schalldruck: 80 dB
100000-facher Schalldruck: 100 dB
1000000-facher Schalldruck: 120 dB

Die Verdoppelung des Schalldrucks entspricht einem Zuwachs von etwa 6 dB (genau: 6,0206 dB). Daraus ergibt sich für die digitale Schallaufzeichnung, daß pro zusätzlichem bit um 6 dB mehr Schalldruckunterschied dargestellt kann. Ein großer Dynamikbereich wird vor allem für Kunstmusik benötigt, weniger für Popularmusik.
Das 8-bit-Format sollte nach dieser Rechnung einen Dynamikbereich von 48 dB darstellen können und das 16-bit-Format 96 dB. Theoretisch ist dies jedoch nicht erreichbar wegen des Quantisierungsfehlers von 1 bit; die Rechnung lautet daher:

( 8–1) 6 dB = 42 dB für das 8-bit- Format und

(16–1) 6 dB = 90 dB für das 16-bit-Format.

Sehr gute Analog-Digitalwandler schaffen 92 bis 93 dB, indem sie mittels Interpolation den Quantisierungsfehler verringern.

Der menschliche Hörbereich umfaßt 120 dB.

Das 16-bit-Format ist ein sinnvolles Minimum für die Darstellung von Musik.

Das Digitaltelefon arbeitet mit 8 bit, daher sind die Frikative schlecht unterscheidbar.

Den absoluten Schalleistungspegel (in sogenannten dB SPL = dezibel sound pressure level) erhält man, wenn man für p0 den Schalldruck der unteren Hörschwelle einsetzt: 2 *105 N/m² Wechseldruck. Die Hörschwelle selbst hat dann den Pegel 0 dB SPL.

Bei analogen Tonbandgeräten und Kassettenrecordern hingegen ist p0 (eigentlich: die Spannung U0) meist als jene obere Grenze definiert, ab der eine weitere Erhöhung der Spannung des Eingangssignals zu starken Verzerrungen führt. Ebenso setzen DAT-Recorder 0 dB mit jener maximalen Eingangsspannung gleich, die gerade noch ohne Verzerrung (Abschneiden der Spitzen) digitalisierbar ist. Die Dezibelskala dieser Geräte hat daher primär negative Werte. In der Literatur findet sich hierfür manchmal die Bezeichnung dB FS.

Schallanalyseprogramme berechnen den Schalleistungspegel aus der sogenannten RMS-Amplitude (rms = root mean square = Wurzel aus dem durchschnittlichen Quadrat):

analog: rms = Quadratwurzel aus (1/T) 0òT p(t) ² t
digital: rms = Quadratwurzel aus (åpi² /n),

wobei die pi die Samples sind.  n ist die Anzahl aufeinanderfolgender Samples, für die man die RMS-Amplitude berechnen möchte; n entspricht - je nach Samplingfrequenz - einer längeren oder kürzeren Zeitdauer.
Im EMAP-Programm ist n die Fouriertransformationslänge, n = lfft.

Die RMS-Amplitude ist immer positiv.

Aus der logarithmierten RMS-Amplitude läßt sich der Schalleistungspegel berechnen, wie die folgende Ableitung zeigt:

rms ² = åpi²/n ist proportional zur Leistung, sodaß die Logarithmierung einen Schalleistungspegel ergibt:

2 lg rms = lg rms ² = lg å pi²/n in Bel,

20 lg rms = 10 lg åpi²/n in dB.

Die RMS-Amplitude gibt also die mittlere Schalleistung innerhalb eines kleines Zeitintervalls an.
Für digitale, auch für analoge Aufnahmegeräte sind jedoch nicht Mittelwerte interessant, sondern Spitzenwerte, die nicht überschritten werden dürfen. Bei digitalen Aufnahmegeräten ist die Maximalwertüberschreitung besonders signalverzerrend. Daher zielt ihre dB-Messung auf Spitzenwerte ab.
 

Fouriertransformation
Inhaltsverzeichnis
Satz von Fourier (geb. im 18. Jhdt): Jede stetige Funktion läßt sich als unendliche Summe von Sinusfunktionen darstellen (und durch eine endliche Summe von Sinusfunktionen beliebig genau annähern).

Die allgemeine Formel für die Sinusschwingung ist A sin (2pft + j), wobei A die Amplitude, f die Frequenz, t die Zeit und j die Phase ist.

In der Schallanalyse wird die Fouriertransformation (FT) benützt, um ein Signal in Sinuskomponenten zu zerlegen, d. h. um herauszufinden, aus welchen Sinusschwingungen ein Signal sozusagen "zusammengesetzt ist". Dazu wird ein kurzer Abschnitt von einigen Millisekunden Dauer, der Transformationsdauer T, aus dem Audiosignal herausgegriffen und der Fourieranalyse unterzogen. Die Sinnhaftigkeit für die Musik- und Sprachanalyse beruht vor allem darauf, daß das menschliche Gehör ähnlich wirkt wie ein Fourieranalysator.



Abb. 2a: Acht Sinusfunktionen in der Transformationsdauer T = 154 msec

Bildhaft anschaulich erklärt geht die Fourieranalyse so vor: Mathematisch koonstruierte Sinusschwingungen mit der Frequenz 1/T und mit der zweifachen, dreifachen, vierfachen usw., allgemein k-fachen Frequenz dieser Grundschwingung (Abb. 2a) werden mit dem Signal daraufhin verglichen, wie sehr sie ihm ähnlich sind. Die Fourieranalyse analysiert so die Harmonizität eines Signals. Die verschieden hohen Ähnlichkeitswerte werden dann graphisch dargestellt oder numerisch angezeigt. Das Ergebnis der Fouriertransformation heißt Spektrum. Das Spektrum stellt die Harmonizität des Signals (graphisch oder numerisch) dar.

Wie das mathematisch gemacht wird, läßt sich am einfachsten an Hand einer Transformationsdauer von T= 2p demonstrieren. (Von 2p abweichende Zeitintervalle müssen zuerst ins Intervall [0, 2p) transformiert werden).

ak = (1/p) 0ò2p p(t) cos (kt) t,

bk = (1/p) 0ò2p p(t) sin (kt) t,

wobei t die Zeit ist, p(t) der zeitabhängige Schalldruck und k = 0, 1, 2, 3, 4, 5, ... ¥. (In der Praxis wird die Fourierentwicklung bei einem beliebigen endlichen hohen Wert kmax, der einer hohen Frequenz entspricht, abgebrochen).

Die ak und bk heißen Fourierkoeffizienten. Sie drücken die Ähnlichkeit oder Unähnlichkeit des Signals mit den Sinusfunktionen cos (kt) bzw. sin (kt) aus: Klarerweise wird |ak| sehr groß, wenn p(t) und cos (kt) stets miteinander positiv und miteinander negativ werden, – aber auch, wenn sie sich genau gegenläufig verhalten. Andererseits wird |ak| in der Nähe von Null liegen, wenn kein gleich- oder gegenläufiger Zusammenhang vorhanden ist. Dasselbe gilt für bk.

(Die nullten Koeffizienten sind Ausnahmen. Es ist immer b0 = 0, sodaß dieser Koeffizient nicht berechnet zu werden braucht. Hingegen ist a0 im allgemeinen ungleich Null, a0/2 = (1/p) 0ò2p p(t) t ist der "Gleichstromanteil" des Signals.)

Das interessierende Ergebnis sind im allgemeinen nicht die Koeffizienten ak und bk, sondern der Betrag Ak, der sich wie folgt berechnet:

Ak² = ak² + bk²

Je größer Ak, desto größer ist die Ähnlichkeit des Signals mit der Sinusschwingung sin (kt + jk). Der Phasenwinkel jk kann aus ak und bk berechnet werden. Die Ak sind ferner die Amplituden jener Sinusschwingungen, in die das Signal sich "zerlegen" läßt (bzw. aus denen das Signal sich zusammensetzen läßt). Die Folge der Ak heißt Betragsspektrum oder Amplitudenspektrum.

Die Rücktransformation ("inverse Fouriertransformation") wird wie folgt gerechnet:

p(t) = a0/2 + Summe von 0 bis unendlich[ak cos (kt) + bk sin (kt)]         k = 0, 1, 2, 3, 4, 5, ... ¥

In der Rücktransformationsformel ist deutlich zu sehen, daß das ursprüngliche Signal p(t) aus Sinusschwingungen zusammengesetzt wird.


Diskrete Fourier-Transformation (dft)

Inhaltsverzeichnis
Bei digitalen Signalen wird das Integral durch die Summe ersetzt. Die Anzahl der analysierten Samples wird lft genannt (length of Fourier Transformation), diese Länge heißt auch Anzahl der dft-Punkte. Die Funktionswerte p(t) sind hier die Samplewerte pi. und die Transformationslänge ist hier einfach die Anzahl der aufeinanderfolgenden Samples, versehen mit den Indizes i= 0, 1, 2, 3, 4, 5,..., lft–1. Die Längen i werden ins Intervall [0, 2p) transformiert mittels der Umrechnung xi = 2pi/lft. Sodann werden die Koeffizienten wie folgt berechnet:

ak = (2/lft) å pi cos (kxi)

bk = (2/lft) å pi sin (kxi)           i = 0, 1, 2, 3, ..., lft       k = 0, 1, 2, 3, ..., lft/2

Ak² = ak² + bk²

Bei digitalen Signalen hat es schon gar keinen Sinn, k sehr groß werden zu lassen, vielmehr muß bei kmax = lft/2 die Entwicklung abgebrochen werden (Sampling-Theorem! Höhere k bringen bloß spiegelverkehrt dieselben Ergebnisse!).

a0/2 ist wiederum der "Gleichstromanteil".

Das Ergebnis der diskreten Fouriertransformation sind ebensoviele Koeffizienten, wie der analysierte Signalabschnitt Samples hat, nämlich lft Koeffizienten (u. zwar lft/2 Kosinuskoeffizienten ak und lft/2 Sinuskoeffizienten bk). Doch halbiert sich die Wertemenge sofort, wenn das Betragsspektrum Ak gebildet wird. Und gerade die Beträge Ak sind ja das interessierende Ergebnis der Fouriertransformation. Sie sind es auch, die in den üblichen Analyseprogrammen graphisch dargestellt werden. Ihre Anzahl ist lft/2.

Die Zeit innerhalb einer dft-Länge berechnet sich wie folgt: T = lft/sr

Die Rücktransformationsformel ist dieselbe wie oben, lediglich mit dem Unterschied, daß nicht bis unendlich, sondern nur bis k = lft/2 aufsummiert wird.
 


Sägezahn-Schwingung
Abb. 3: 252 Samples einer synthetisierten Sägezahnschwingung, 8-bit-Format.


DFT des Sägezahns Abb. 3
Abb. 4: Diskrete Fouriertransformation des Sägezahns von Abb. 3. Lft = 252 Punkte. Die Transformation zeigt ein harmonisches Spektrum (Obertonreihe).


DFT des Sägezahns Abb. 3
Abb. 5: Dieselbe DFT desselben Signals wie bei Abb. 4: logarithmierte Amplitude in Dezibel.


DFT des Sägezahns Abb. 3
Abb. 6: DFT des Signals von Abb. 3. Dezibel- und Oktavenskala. Energieabnahme von ca. 6 dB/Oktav.


Abb. 4-6 zeigen verschiedene Möglichkeiten der Darstellung des Spektrums. Daß die Energie der Harmonischen um 6 dB pro Oktav abnimmt, ist typisch für Sägezahnschwingungen. Da keine sampling rate dieses synthetisierten Sägezahns angegeben ist (Raw-Format), können die Koeffizienten nicht in Hertz umgerechnet werden. Bei einer unterstellten Samplingfrequenz sr = 44100 Hz wäre die Umrechnung wie folgt:

Die Sinusschwingung des ersten Koeffizienten hat die Periodendauer T = lft/sr, die des zweiten lft/2sr, die des dritten lft/3sr und die des k-ten Koeffizienten lft/ksr. Die Frequenz ist der Kehrwert der Periodendauer. Die dem k-ten Koeffizienten entsprechende Frequenz wäe somit  fk = k sr/lft = k 44100/252 = k mal 175 Hz.


Zeitauflösung und Frequenzauflösung der diskreten Fourieranalyse

Inhaltsverzeichnis
Bei der diskreten Fourieranalyse kann die Genauigkeit des Ergebnisses nicht beliebig gesteigert werden. Je kürzer die lft, desto besser ist die Zeitauflösung und desto schlechter die Frequenzauflösung - und umgekehrt. Das erklärt sich so:

Die Frequenzen fk, die an das Signal "anprobiert" werden, bilden quasi die Obertonreihe k * sr/lft zur Grundfrequenz sr/lft (die die Periodendauer T = lft/sr hat). Je kürzer die lft, desto höher ist diese Grundfrequenz und desto größer sind auch die Abstände zwischen den Frequenzen ihrer Obertonreihe. Dieser Abstand Df = sr/lft ist das Auflösungsvermögen der Fouriertransformation. Denn die im Signal enthaltenen Periodizitäten können nicht anders als mittels der Frequenzen k*sr/lft ausgeforscht und dargestellt werden. Wenn, wie es häufig vorkommt, zwei benachbarte Fourierkoeffizienten "ansprechen", weil die zu analysierende Frequenz irgendwo dazwischen liegt, kann nur ungefähr vermutet werden, wie hoch sie ist: (Sie kann auch mittels quadratischer Interpolation - wie im EMAP-Programm - nur annähernd bestimmt werden).

Ein Beispiel: Df = sr/lft = 48000 Hz /1024 = 46,875 Hz, das ist in der eingestrichenen Oktave ein Auflösungsvermögen von ca. einem Halbton.

Um eine möglichst genaue Frequenzauflösung zu erhalten, muß also die lft möglichst lang gewählt werden. Das bringt jedoch einen anderen Nachteil mit sich: Frequenzen können sich von Zeitabschnitt zu Zeitabschnitt ändern, die genaue zeitliche Verortung einer im Spektrum angezeigten Periodizität ist nicht möglich. Dieses Problem läßt sich allerdings mittels sogenannter Fenster lösen.


Zeitfenster

Inhaltsverzeichnis
Allerdings müssen nicht notwendigerweise alle Teile des sich in der lft befindlichen Signalabschnitts gleichermaßen an der Fouriertransformation beteiligt sein. Sogenannte Fenster bewirken, daß sich bestimmte Teile im Analyseergebnis mehr auswirken als andere. Fenster sind Gewichtungen.

Fenster können Artefakte eliminieren, die durch die Willkürlichkeit des Signalausschnitts entstehen: Während das Signal normalerweise stetig verläuft, ergibt sich zwischen erstem und letztem Samplewert meist eine erhebliche Differenz. Diese wirkt auf die Fouriertransformation wie ein abrupter Sprung im Signalverlauf und erzeugt allerlei Frequenzen, die im ursprünglichen Signal selbst gar nicht vorhanden sind. Wenn das Fenster an den Rändern in geeigneter Weise gegen Null geht, verschwindet dieser abrupte Sprung. Die allermeisten Fenster senken daher am Anfang und Ende der lft die Intensität des Signals ab. (Auch bei einem ohnehin schon sprunghaften Signal wie der Sägezahnkurve Abb. 3 bewirkt der durch den Signalausschnitt entstehende zusätzliche Sprung Artefakte, vgl. Abb. 4 mit Abb. 8).

a) Fensterformen

Inhaltsverzeichnis
Das Rechteckfenster verändert das Signal nicht. Es erzeugt sehr genaue Frequenz-Ergebnisse, aber mit Seitenflanken bzw. Nebenzipfel. Daher werden meist andere Fenster verwendet:

Dreieckfenster

Kosinusfenster (Hamming-Fenster)

Blackman-Fenster: sehr genau in der Frequenz trotz schmalen Seitenflanken. Es ist daher die Standardeinstellung im EMAP-Programm.

Henning-Fenster: geht an den Rändern nicht nach Null.

All diese Fenster sind symmetrisch. Es gibt es auch asymmetrische. Die Simulation des menschlichen Gehörs gelingt besser mit asymmetrischen Fenstern.

Die Anwendung eines Fensters auf ein Signal geschieht, indem jeder Samplewert pi mit dem Fensterkoeffizienten wi multipliziert wird. Die Fensterkoeffizienten wi liegen zwischen 0 und 1. Der gefensterte Signalausschnitt qi = pi wi wird sodann der Fourieranalyse unterzogen.

b) Fensterlängen

Inhaltsverzeichnis
"lwdw" = length of the window. Standardeinstellung ist lwdw = lft. Das muß aber nicht so sein. Die lwdw kann erheblich kürzer sein als die lft. Damit gelingt es, sowohl die Zeitauflösung als auch die Frequenzauflösung sehr gut werden zu lassen. Denn die Zeitauflösung ist durch die lwdw bestimmt, die Frequenzauflösung hingegen durch die lft.
Sägezahn im Cosinusfenster
Abb. 7: Der Sägezahn von Abb. 3, auf den ein Kosinusfenster angewandt wurde mit lwdw = lft und den Fensterkoeffizienten wi = 0,5 [1 –cos (2pi/lft)].


DFT des gefensterten Sägezahns
Abb. 8: DFT des gefensterten Signals Abb. 7. Vergleiche mit der DFT des ungefensterten Signals in Abb. 4.
Da das Fenster Teile des Signals abschwächt, sind auch die Werte im Betragsspektrum durchschnittlich kleiner als sie bei Analyse des ungefensterten Signals wären (vgl. Abb. 4 mit Abb. 8).


Die Unterschiede des Spektrums eines gefensterten und eines ungefensterten Signals werden besonders auf der dB-Skala sichbar (vgl. Abb. 5 mit Abb. 9). Man darf die im unteren Dynamikbereich stark sichtbaren Unterschiede allerdings nicht überbewerten, da sie im Gehör von den lauten Teiltönen verdeckt werden.


DFT des cosinusgefensterten Sägezahns
Abb.9: DFT wie Abb. 7, Amplitude in dB. Vergleiche mit der DFT des ungefensterten Signals in Abb. 5.


DFT des cosinusgefensterten Sägezahns
Abb. 10: DFT wie Abb. 7, Oktavenskala, Amplitude in dB. Vergleiche mit der DFT des ungefensterten Signals in Abb. 6. Der Energieabfall 6dB/Oktav bei den Teiltönen verläuft hier geradliniger als in Abb. 6.


Frequenzmessung
Inhaltsverzeichnis
Am Rand gegen Null gehende Fenster vermindern zwar einen bestimmten Artefakt-Typus, erzeugen aber einen anderen: Die tiefen Frequenzen im Spektrum erscheinen um ein geringes höher. Dieser Effekt ist um so größer, je tiefer die Frequenz und je kürzer die lft ist.

Meßbar ist dieser Effekt an Hand eines Schalles, von dem man weiß, daß er ein vollkommen harmonisches Spektrum haben muß, z. B. dem einer menschlichen Stimme. Das Teiltonspektrum wird durch den Fenstereffekt leicht inharmonisch, man bemerkt, daß der Frequenzmeßwert des Grundtons höher ist als er auf Grund der der Obertonfrequenzen sein müßte. Die Unsicherheit des Frequenzmeßwerts, die wegen der begrenzten Frequenzauflösung (siehe oben) ohnehin schon besteht, wird durch den Fenstereffekt vergrößert.

Soll die Frequenzmessung möglichst genau sein, so ist folgendes zu beachten:

a) Rechteckfenster verwenden,

b) lange Transformationslängen verwenden (8192 lft-Punkte und mehr),

c) bei Schallquellen mit bekanntermaßen vollkommen harmonischem Spektrum die Frequenz des k-ten Teiltons messen und durch k dividieren. Diese Methode kann allerdings nicht angewendet werden bei Schallquellen, deren Spektren nicht ganz genau harmonisch sind, wie z. B. Klaviersaiten.

d) Eine andere Meßmethode verwenden: Am genauesten ist die Frequenzbestimmung durch Messung zweier Nulldurchgänge in der Wellenform. Berechnung: Frequenz = Anzahl der Perioden / Zeit


Fast Fourier Transformation (fft)
Inhaltsverzeichnis
1965 publizierten Cooley und Tukey eine schnellere Art, (mit geringerem Rechenaufwand) die Fourieranalyse zu rechnen, die sog. Fast Fourier Transformation (FFT). Voraussetzung ist, daß die fft-Länge eine Zweierpotenz ist, d. h. daß lfft = 64 oder 128, 256, 1024, 2048 usf. Dann sind statt lfft² Multiplikationen nur lfft * log2 lfft Multiplikationen nötig (Methode: "bit reverse ordering"). Die Schnelligkeit der Berechnung kommt besonders bei der dreidimensionalen Darstellung zum Tragen.


Dreidimensionale Darstellung, Shift

Inhaltsverzeichnis
Bisher war nur von der Fourieranalyse eines einzelnen, kleinen Zeitabschnitts T die Rede. Nun interessiert aber auch die Veränderung des Spektrums im Zeitverlauf. Hierzu müssen Fouriertransformationen von mehreren hintereinanderfolgenden Signalabschnitten gemacht werden. Die Ergebnisse werden dreidimensional dargestellt: Zur Frequenzachse und Schalleistungsachse kommt jetzt noch die Zeitachse dazu. Eine der drei Dimensionen, die Schalleistung, wird als Grauwerteskala ausgeführt: je höher die Schalleistung, desto schwärzer die Zeichnung. Eine andere Form der dreidimensionalen Darstellung ist das "Wasserfalldiagramm".

Die hintereinanderfolgenden, eine Fensterlänge großen Signalabschnitte können entweder unmittelbar aneinander anschließen oder sie können einander überlappen oder es können (unanalysiert bleibende) Intervalle zwischen ihnen sein. Das Intervall vom Beginn eines analysierten Signalabschnitts bis zum Beginn des nächsten heißt shift. Soll eine Rücktransformation der dreidimensionalen Spektraldarstellung möglich sein, so darf das shift nicht größer sein als eine Fensterlänge. Shift = lwdw ist zwar ausreichend für eine Rücktransformation, aber nicht immer für die Sichtbarmachung aller Details. Wenn ein kurzes Schallereignis zufällig an den Rand des Fensters zu liegen kommt, wird es durch die Fensterform so weit abgesenkt, daß im Spektrum nicht prägnant zum Ausdruck kommt. (Von diesen Überlegungen ist das Rechteckfenster natürlich ausgenommen). Je länger das Fenster ist und je niedriger die Samplingfrequenz, desto größer wird die Wahrscheinlichkeit, daß die Fourieranlyse etwas auditiv Relevantes "übersieht". Dem kann begegnet werden durch die Verkleinerung des shift, sodaß die analysierten Signalabschnitte einander überlappen. Das bedeutet mehr analysierte Signalabschnitte, d. h. mehr Rechenzeit, was bei langen Musikstücken und großer Transformationslänge sehr wohl ins Gewicht fallen kann. Es empfiehlt sich, das shift halb so groß wie die Fensterlänge zu wählen.

Die Fouriertransformation gibt das Spektrum nicht eines Zeitpunktes, sondern eines kleinen Zeitraumes an. Bei der Darstellung mehrerer aufeinanderfolgender Spektren tritt nun die Frage auf, welchem Punkt der Zeitachse man das Spektrum zuordnen sollte. Es gibt drei vernünftige Lösungen: Anfangspunkt, Mittelpunkt und Endpunkt des transformierten Signalausschnittes. Verschiedene Hersteller von Schallanalyseprogrammen bevorzugen verschiedene Lösungen. Das von Deutsch und Noll entwickelte S_TOOLS ordnet das Spektrum dem Mittelpunkt zu, Terhardts Programm, das ein asymmetrisches Fenster verwendet, dem Endpunkt und das von Lubej programmierte EMAP dem Anfangspunkt. Dies ist zu beachten, wenn mit längeren Transformationslängen gearbeitet wird. Wegen der Fensterform betont das Spektrum den sich in der Mitte der lfft befindlichen Signalabschnitt. Daher kann bei gleichzeitiger auditiver und visueller Beobachtung eine Zeitverschiebung zwischen Klang und Analysebild spürbar werden. Man sieht etwas, was man erst kurze Zeit später hört. Diese Zeitverschiebung ist um so größer, je länger die Transformationslänge und je kleiner die Samplingfrequenz ist.


Kepstrum

Inhaltsverzeichnis
Nicht nur Signale, auch Spektren können periodisch gebaut sein oder periodische Anteile enthalten. Das bekannte Beispiel dafür liefert die Obertonreihe. Um diese spektralen Harmonizitäten herauszudestillieren, wird das Spektrum selbst der Fourieranalyse unterzogen. In diesem Fall spricht man vom Kepstrum. (Kepstrum ist ein Kunstwort, das Buchstaben des Wortes Spektrum vertauscht).


Psychoakustik

Inhaltsverzeichnis
Zur musik- und sprachbezogenen Interpretation von Schallanalysedaten ist psychoakustisches Wissen nötig. Dies hat zwei Gründe:

Erstens besteht zwischen physikalischer und psychoakustisch-phonetischer Ebene keine Eins-zu-Eins-Relation. Damit ist z. B. die Frage der Klangfarbe und der subjektiven Tonhöhe und Lautheit angesprochen.

Und zweitens stellt sich für den Messenden oft die Frage, welche Erhöhung der Meßgenauigkeit eigentlich noch sinnvoll ist, d. h. wie feine Unterschiede vom menschlichen Gehör noch wahrgenommen werden. Damit ist die Frage nach psychischen Schwellenwerten angesprochen.

Zunächst sei angemerkt, daß die Psychoakustik der musikalischen Terminologie einige Wörter entlehnte und ihnen eine etwas andere Bedeutung gab. Dadurch entstehen leicht Mißverständnisse, die mitunter zu heftigen Auseinandersetzungen führten. Bekannt und berüchtigt geworden ist in diesem Zusammenhang die Diskussion um die Begriffe Konsonanz und Dissonanz. Einige solche terminologische Differenzen werden in nachstehender Tabelle sichtbar:


physikalischpsychoakustischmusiktheoretisch
SinusschwingungSinuston, simple tone Ton (flötenartig)
zu einer harmonischen Frequenzreihe zusammengesetzte SinusschwingungenKlangTon
zu einer inharmonischen Frequenzreihe zusammengesetzte Sinusschwingungen TongemischKlang
zu 2 oder mehr harmonischen Frequenzreihen zusammengesetzte Sinusschwingungen KlanggemischKlang
Nichtperiodische Schwingungen weißes und farbiges RauschenGeräusch
 


Drei Phasen eines Tones oder Klanges

Inhaltsverzeichnis
  1. Einschwingvorgang: relevant für die Erkennung von Musikinstrumenten.
  2. (Quasi)stationärer Klang
  3. Ausschwingvorgang: dauert bis zur Absenkung um –60 dB
Zu beachten: Die Werte 3 dB und –60 dB sind physikalisch-akustische Festlegungen, sie entbehren nicht einer gewissen Willkür. Wo psychoakusisch ein Ton beginnt, bedarf noch der Erforschung.


Schwellen

Inhaltsverzeichnis
  1. Absolutschwellen:

  2. Differenzschwellen:

Tonhöhenkategorien
Inhaltsverzeichnis
  1. Sinustonhöhe: eindeutig, (fast nur) von der Frequenz abhängig, (ein bißchen auch von der Lautstärke)

  2. Spektraltonhöhe = Tonhöhe eines Teiltones: kann bis ½-Ton vom physikalischen Meßwert abweichen

  3. virtuelle Tonhöhe: wird in der Wahrnehmung einem Teiltonkomplex zugeordnet, ist nicht von der Existenz einer Sinuskomponente abhängig.
    Im psychoakustischen Experiment wurde nachgewiesen, daß dieses Phänomen des "missing fundamental", des physikalisch-akustisch nicht vorhandenen und dennoch wahrgenommenen Grundtones vom Phänomen des Differenztones 1. Ordnung (= fx– fy und hat somit dieselbe Tonhöhe) verschieden ist.

Sukzessivverdeckung
Inhaltsverzeichnis
"Vorverdeckung" = "Rückwärtsverdeckung": bis 10 msec
"Nachverdeckung" = "Vorwärtsverdeckung": bis 20-30 msec.


Kritische Bandbreite, Barkskala

Inhaltsverzeichnis
Innerhalb einer Kritischen Bandbreite arbeitet das Gehör nach anderen Gesetzmäßigkeiten als außerhalb. Ihre Wirkung nimmt unter 300 msec ab.

Die kritische Bandbreite beträgt
unterhalb von 500 Hz ca. 100 Hz,
oberhalb von 500 Hz ca. 17 % der Mittenfrequenz (Kleinterzband).

Das Ohr hat 24 Kritische Bandbreiten. Diese 24 Bänder bilden die Bark-Skala.
1 Kritische Bandbreite = 1 Bark.

Beispiel: Überlappung zweier Sinusschwingungen: Df = f1–f2:

Df = 4 Hz: periodisch lauter und leiser werdender Ton der Frequenz f3 = (f1+f2)/2,
Df = 4 bis 10 Hz: vibrierender Ton der Frequenz f3 = (f1+f2)/2,
Df = 10 Hz bis Frequenztrennungsschwelle: rauher Ton,
        (max. Rauhigkeit bei Df » 30 Hz),
ab der Frequenztrennungsschwelle: rauher Zweiklang,
ab Überschreitung der Kritischen Bandbreite: Zweiklang.

Phänomene der Kritischen Bandbreite:
Inhaltsverzeichnis
Rauhigkeit:
Größte Rauhigkeit bei einem Intervall von ¼ einer Kritischen Bandbreite.

Teiltonunterscheidung:
Gut bis etwa zum 8. Teilton, dann wird sie schlechter, weil die benachbarten Teiltöne immer enger innerhalb einer Kritischen Bandbreite liegen.

Simultanverdeckung:
Stellt man die Mithörschwellen auf der Bark-Skala dar, so sind sie linear:
Ein Sinuston von 100 dB SPL hat eine Mithörschwellen-Kurve mit einem linearen Abfall nach links von 27 dB/Bark und einem linearen Abfall nach rechts von 23 dB/Bark. (Bei weniger lauten Sinustönen ist der Abfall nach rechts etwas steiler). Allgemein: Ein Ton verdeckt höhere Töne weiterreichend als tiefere Töne.


Filter
Inhaltsverzeichnis
Je nach den Frequenzen, die das Filter passieren läßt, unterscheidet man:

Tiefpaß-,
Hochpaß-,
Bandpaß- und
Bandstop-Filter.

IIR-Filter (infinite impulse response) rechnen rekursiv, sie haben wenig Rechenaufwand, sind aber nicht phasenstabil.

FIR-Filter (finite impulse response) sind phasenstabil, aber rechenaufwendiger. Sie sind zudem mittels eines Programmes, das inverse Fouriertransformationen macht, einfach herzustellen: Man setze die Fourierkoeffizienten in dem Band, in dem das Filter durchlässig sein soll, auf das Maximum fest und im sonstigen Bereich auf Null. Dann rechne man die inverse Fouriertransformation und erhalte die Filterkoeffizienten hi. Diese Filterkoeffizienten werden mit den Samplewerten pi gefaltet, d. h. es werden folgende mathematischen Operationen ausgeführt:

q =å pi hn–i

Je größer n gewählt wird, desto besser das Filter und desto länger die Rechenzeit.
Das Filter wird sozusagen über das Signal immer je ein Sample weitergeschoben, in jeder Stellung wird obige Multiplikationensumme gebildet. Die Folge der erhaltenen q ist das gefilterte Signal.

Es ist sinnvoll, auf die die zu filternden Signalabschnitte zuvor ein nichtreckeckiges Fenster anzuwenden und ein shift von der Größe lfft/2 zu wählen.

Inhaltsverzeichnis

Letzte Korrktur 06. 03. 2003
e-mail an den Autor: Hermann Fritz <a7425519@unet.univie.ac.at>