Auditorische
Verarbeitung von
Sprache
Universität Hamburg
IAAS/IPhaSI
Seminar II: Perzeptive Phonetik
SoSe 2005, LV-Nr.: 07.039
Prof. Dr. Magnús Pétursson
Referent: Timo Baumann
02. Mai 2005
- Was mache ich hier?
- Referat über
Kapitel 10 "Auditory Processing of Speech" von Steven Greenberg in:
Principles of Experimental
Phonetics, Norman J. Lass (Hrsg.). St. Louis: Mosby, 1996.
- Steven Greenberg forscht
am International Computer Science Institute der Universität
Berkeley im Bereich der Phonetik und maschinellen Sprachverarbeitung
- Das Kapitel behandelt
- den Aufbau der
Hörbahn vom "Ohr" bis in die auditorischen Kerne und in den
auditorischen Kortex des Gehirns,
- dabei werden Art und
mögliche Funktionen der unterschiedlichen Zelltypen und der
Aufbau der Verbindungen zwischen den unterschiedlichen Nerven(zentren)
diskutiert,
- die unterschiedlichen
Repräsentationen von akustischen Reizen in der
Hörbahn,
- die Schlüsse
die sich aus dem Wissen über die Hörbahn ziehen
lassen.
- Warum mit dem Gehör
beschäftigen?
- klar: Phonetik
beschäftigt sich
mit Sprachproduktion, -übertragung und -perzeption
- Gesprochene Sprache
scheint überwiegend durch die Fähigkeiten des
Gehörs geprägt zu sein:
- das Gehör ist
phylogenetisch sehr alt
- Ohr und Hörbahn
(bis ins Stammhirn) sind bei allen Säugetieren sehr
ähnlich
- die Artikulationsorgane
und Sprache überhaupt sind sehr jung und auf den Menschen
beschränkt
- somit setzt Arbeit in
der artikulatorischen Phonetik Wissen der perzeptiven Phonetik voraus
- ermöglicht
Fortschritte in Anwendungen
- im medizinischen Bereich
- im Bereich der
maschinellen Sprachverarbeitung
- Wie mit dem Gehör
beschäftigen?
- Wir hören nicht
akustisch, sondern auditiv, das heißt erst das Ergebnis der
auditorischen Verarbeitung in der Hörbahn ist uns bewusst
zugänglich, leider aber nicht die Zwischenergebnisse der
einzelnen Verarbeitungsstufen.
- Tierversuche, bei denen
direkt mit einer Elektrode das Verhalten einzelner Nervenzellen
aufgenommen wird
- methodisch
gerechtfertigt durch die Ähnlichkeit der Hörbahn bei
Säugetieren
- ethisch bedenklich
- Betäubungsmittel
verfälschen unter Umständen die Ergebnisse
- möglicherweise
in Zukunft verstärkt Einsatz von z. B.
Magnetresonanztomographien direkt am Menschen?
- Das Gehör
arbeitet nicht - wie lange angenommen - linear und zeitinvariant:
- Der Höreindruck
zweier gleichzeitiger
Sinusschwingungen mit 440 und 880 Hertz ist ein anderer als die
Kombination der Höreindrücke von je einer
Sinusschwingung mit
440 und einer mit 880 Hertz.
- die
Repräsentation der Lautstärke eines Signals ist nicht
über den gesamten Hörbereich linear sondern ziemlich
komplex.
- Deswegen ist es wichtig,
in Versuchen nicht nur wenige einfache, sondern auch
komplexe, realitätsnahe Signale zu verwenden.
- Außen-, Mittel-
und Innenohr
- Außen- und
Mittelohr wirken in erster Linie als
akustisches Filter, das die Frequenzen zwischen 2,5 und 5 kHz betont
und Frequenzen unterhalb von 200 Hz dämpft.
- In der Cochlea entsteht
eine Wanderwelle, die je nach Frequenz in unterschiedlichen Bereichen
der Basilarmembran unterschiedlich stark ausgeprägt ist.
- Weiter vorne in der
Cochlea werden die hohen, zur Spitze hin die tiefen Frequenzen
wahrgenommen.
- Die Auslenkung durch
Schall einer Frequenz erreicht an einer bestimmten Stelle der
Basilarmembran ihr Maximum: jedem Ort ist so seine
"charakteristische Frequenz" (CF) zugeordnet.
- Die unterschiedlichen
Frequenzen eines Schalls werden also an unterschiedlichen Stellen der
Cochlea abgebildet und wahrgenommen (Ortsprinzip, tonotopisches
Prinzip).
- lineare Abbildung nur
bis
etwa 40 dB Schalldruckpegel (sound
pressure level, SPL) für einfachen Schall
- höhere
Intensitäten
- verstärken
nicht mehr die Auslenkung an der Stelle der charakteristischen Frequenz
- stattdessen
Auslenkung auch in angrenzenden (vor allem höheren)
Frequenzbereichen
- Verdeckung von weniger
intensiven Teilfrequenzen
- Die Haarzellen und der
Hörnerv
- Jede
Haarzelle und die ihr nachgeschalteten Nervenzellen reagieren
hauptsächlich auf Schall einer charakteristischen Frequenz
- das tonotopische Prinzip
(die Anordnung der Nervenzellen abhängig von der CF) pflanzt
sich
also weiter durch den Hörnerv und prinzipiell bis in den
auditorischen Kortex fort, wird aber im Verlauf schwächer und
von anderen Ordnungsprinzipien überlagert
- Nervenzellen reagieren
grob betrachtet (wie bereits bekannt) nach dem
EIN/AUS-Prinzip:
- abhängig von
den an den Eingängen anliegenden Signalpegeln feuern sie oder
eben nicht
- Die Haarzellen reagieren
auf die Auslenkung der Basilarmembran dadurch, dass die
Häarchen bewegt werden und dabei eine Spannung in der Zelle
aufgebaut wird. Diese Spannung entlädt sich und wird von den
Fasern des Hörnervs registriert
- Phasenkopplung der
Entladungen
- die Haarzellen
"schießen sich sehr schnell ein" und feuern schon nach sehr
wenigen Perioden phasengekoppelt
- diese Phasenkopplung
funktioniert optimal bis etwa 2 kHz und verschwindet bei etwa 5 kHz
- bei höheren
Frequenzen ist die Zeit zwischen Wellental und Wellenberg einfach zu
kurz als dass die Nervenzellen sich noch daran ausrichten
könnten
- stattdessen feuern
sie "ungetaktet" oder aber synchron zu anderen, niedrigeren
Teilfrequenzen
(Grundfrequenz, 1. oder 2. Formant)
- die Information
über Teilfrequenzen wird im Hörnerv also auf zwei
Arten kodiert:
- durch die tonotopische
Anordnung werden unterschiedliche Frequenzen von unterschiedlichen
Nervenzellen übertragen
- zusätzlich ist
die erregende Frequenz durch die phasengekoppelten Entladungen der
Nervenzelle synchron zur Schwingungsdauer der erregenden Welle kodiert
- der von einer Faser im
Hörnerv darstellbare Dynamikumfang (also der
Lautstärkebereich zwischen minimaler und maximaler Erregung)
beträgt meist weniger als 40 dB
- pro Ohr gibt es etwa 4.000
innere Haarzellen, aber etwa 30.000 Hörnervfasern
- manche Fasern gleicher
CF reagieren bereits auf niedrige, manche erst auf höhere
Lautstärken
- der Hörnerv
teilt sich zum Hirn hin in drei Stränge, die in
unterschiedliche Kerne übergehen
- Der Nucleus Cochlearis
Ventralis
- "Chopper"-Zellen,
Repräsentation des Spektrums
- feuern nicht so
häufig wie die Fasern im Hörnerv dafür aber
fest getaktet (bei stimmhaften Lauten im Takt mit der Grundfrequenz)
- haben starke
inhibitorische Verknüpfungen
- das heißt
sie feuern nur dann, wenn die Nervenzellen an den inhibitorischen
Verknüpfungen nicht feuern
- dadurch wird die
Spektraldarstellung des Signals gegenüber der Darstellung im
Hörnerv geschärft, die Spitzen treten
stärker hervor
- Verknüpfung der
Information durch die tonotopische Anordnung und die phasengekoppelte
Entladung
- dadurch wird
unterschieden, ob die Erregung tatsächlich durch die CF oder
durch eine andere, die CF überdeckende Frequenz erfolgt
- die spektrale
Darstellung wird weiter geschärft
- "average localized
synchronized rate", noch nicht vollständig erforscht
- "Onset"-Zellen
- reagieren
primär auf den Einsatz eines Signals, feuern also bei
Übergängen im Schallsignal
- durch breit gestreute
Eingänge liegt ihr Dynamikumfang weit höher als der
der Fasern im Hörnerv, weil von unterschiedlich empfindlichen
Hörnervfasern empfangen wird
- durch
Koinzidenz-Prüfung können
Störgeräusche von Nutzschall unterschieden werden
- Schall der von einer
Quelle ausgeht stimmt über breite Frequenzbereiche in der
Phase
überein. Störschall ist hingegen unabhängig
von der Nutzschallquelle und wird so herausgefiltert
- "primary-like"-Zellen,
Richtungswahrnehmung
- leiten das Signal
einfach nur weiter ohne es stark zu verändern
- Weiterleitung in die
oberen Oliven. Dort findet wahrscheinlich eine Richtungsbestimmung der
Schallquelle statt.
- der Nucleus Cochlearis
Dorsalis
- unterscheidet sich stark
zwischen unterschiedlichen Tierarten und dem Menschen
- was vielleicht bedeutet,
dass er besonders wichtig ist
- weniger gut erforscht
- starke Inhibition durch
entfernte Frequenzen führt zu nichtmonotonem Antwortverhalten
von Zellen
- weniger starke
tonotopische Organisation
- Verhalten einzelner
Zellen sehr stark vom gesamten Frequenzspektrum abhängig
- Aufbau vergleichbar mit
dem höherer Hirnstrukturen
- hohe Zinkkonzentration,
die im Gehirn charakteristisch ist für Lernfähigkeit
- auf- und ablaufende
Nervenfasern ermöglichen wahrscheinlich schnelle Anpassung an
unterschiedliche lautliche Umgebungen
- auf dem Weg zum
auditorischen
Kortex
- die Häufigkeit
mit der Zellen feuern nimmt von der Cochlea bis zum auditorischen
Kortex ab
- die tonotopische Anordnung
nimmt ab
- die Komplexität
der Erregungsmuster und die Verknüpfungsdichte der einzelnen
Zellen nehmen zu
- die im Schall enthaltene
Information wird immer stärker herausgefiltert und
störende Anteile werden gedämpft
- Bibliographie:
- S. Greenberg (1996):
Auditory Processing
of Speech, in: Principles of Experimental Phonetics. N. Lass
(Hrsg.). St. Louis: Mosby.
- R. Klinke (2003):
Hören und Sprechen: Kommunikation des Menschen, in: Lehrbuch
der Physiologie. 4. Auflage. R. Klinke, S. Silbernagl
(Hrsg.). Stuttgart:
Thieme.