SV-Prüfung

Prüfer: Menzel
Beisitzerin: Vertan
Note: 1.0
Datum: 23. August 2006, 11:00

Vorbereitung

relevante Vorlesungen:

Sprachorientierte KI
Semantische Sprachverarbeitung
Sprachsignalverarbeitung
diverses anderes (aber obiges ist der Pflichtteil)

Ich hab mich mit Menzel drauf geeinigt, Daniel Jurafsky, James H. Martin: "Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition", Prentice-Hall, 2000. als Grundlage zu verwenden. Ich hab's also durchgearbeitet, Notizen erstellt (www.timobaumann.de/2006/08/23) und die dann gelernt. Außerdem die Folien zu obigen Vorlesungen, Rabiner, 1993 für HMMs. Von Jurafsky/Martin kommt nächstes Jahr eine neue Auflage heraus, von der schon viele Kapitel online stehen. Gerade didaktisch wird es wohl deutlich besser.

Protokoll

Wir fangen an mit endlichen Automaten. Wozu werden die denn in der Sprachverarbeitung benutzt?

FSA, FST für Morphologie (obwohl sie eigentlich nicht regulär ist), Phonotaktik (Aussprache), Chunking/shallow parsing

Nachfragen:

Beispiel zu Phonotaktik, Unterschied semantisches bzw. syntaktisches Chunking (ähm, äh, Mechanismus ist derselbe, Schwerpunktlegung unterscheidet sich, mit Stelligkeit der Verben verrannt aber gemerkt), was sind gute Chunks für shallow parsing (ich: syntaktisch: Eigennamen, semantisch: Firmen vs. Ländernamen vs. Städtenamen. er wollte noch Datum, Uhrzeit als semantische Kategorien)
wieso ist denn Morphologie nicht regulär? (Beispiel: erstaunlich, bei dem regulär zwei unterschiedliche "staun" im Automaten sein müssen, damit nicht auch "*staunlich" generiert wird) was können denn reguläre Sprachen nicht? (etwas rumgedruckst, aⁿbⁿ, zentrale Rekursion erklärt, aber nicht das Wort ausgesprochen)
eigentlich wollte er noch Dialogmanagement als Beispiel, hatte es dann aber auch vergeohne ssen

Sehr in Mode gekommen sind in den letzten Jahren vor allem probabilistische Methoden. Was gibt's, wofür wird's benutzt?

es gibt N-Gramme, gewichtete Automaten/Markov-Ketten, HMMs, PCFGs
N-Gramme werden in Language Modellen benutzt, um die Wahrscheinlichkeit von Äußerungen gemessen an einem Korpus zu ermitteln

Beispiel probabilistische Übersetzung: Zielsatz soll "gut" sein und Zielsatz soll den Quellsatz gut abbilden
Beispiel Spracherkenner: Übergang zwischen den Wortmodellen erfolgt nach Bigramm-Wahrscheinlichkeit
Nachfragen: sind also besonders große N-Gramme (N → ∞) besser? Data Sparsity, Entfernung der Abhängigkeiten, Backoff, Smoothing, Einmalgesehenes als Indikator für nie gesehenes, Deleted Interpolation

PCFGs sind gewichtete Regelsysteme, die die wahrscheinlichsten Ableitungen bevorzugen, eigentlich besser lexikalisiertes PCFG, weil Wahrscheinlichkeiten von der Position der Konstituenten abhängt
Markov-Ketten

sind die eigentlich das selbe wie N-Gramme? Grübelgrübel: Ja. (war richtig!)

HMMs:

(Q, A, B), Diagramm gemalt, unterschiedliche Aufgaben (FW-, Viterbi-, FW/BW-Algorithmen)
Beispiel POS-Tagging: Tags sind Zustände, Wörter Symbole, Viterbi-Algorithmus liefert Tagfolge
Beispiel Spracherkenner

vermutlich noch ein oder zwei Nachfragen, hat ihn aber nicht interessiert, weil er der Meinung war, dass ich es eh könne (zu recht)

Semantik, Syntax ohne Semantik bringt ja nix

genau, Kompositionalitätsprinzip, PL als Bedeutungsrepräsentationssprache, Formeln an die Atome, Umformungen an die Produktionen. Beispiel: Luigi backt Pizza, Reifizierung erklärt (backt Pizza heute abend), λ-Kalkül/Funktionsanwendung für Verben, Sätze, thematische Rollen erwähnt
Nachfragen: ich hatte zunächst keinen Syntaxbaum über das Beispiel gemalt, aber die Regeln der CFG hingeschrieben, vielleicht noch was

Etwas wieder aus der Mode gekommen ist Unifikation, wofür ist das denn gut?

Problem der Übergenerierung bzw. der aufgeblasenen Grammatik durch Kategorien
Kategorien in Merkmalsvektoren, Unifizierbarkeit, Unifizierung (Algorithmus war ihm wieder egal :-( )
Beispiel Sprachgenerierung, funktionale Form eingeben und Grammatik bildet die Ausgabe, die gesammte Grammatik steht in einer Merkmalsstruktur, es wird nur unifiziert, sonst nichts

fertig. Zeit wohl deutlich überschritten

Viel Glück bei Deiner Prüfung!

1baumann