SV-Prüfung
Prüfer: Menzel
Beisitzerin: Vertan
Note: 1.0
Datum: 23. August 2006, 11:00
Vorbereitung
relevante Vorlesungen:
- Sprachorientierte KI
- Semantische Sprachverarbeitung
- Sprachsignalverarbeitung
- diverses anderes (aber obiges ist der Pflichtteil)
Ich hab mich mit Menzel drauf geeinigt, Daniel Jurafsky, James
H.
Martin: "Speech and Language Processing. An Introduction to Natural
Language Processing, Computational Linguistics, and Speech
Recognition", Prentice-Hall, 2000. als Grundlage zu verwenden. Ich
hab's also durchgearbeitet, Notizen erstellt
(www.timobaumann.de/2006/08/23) und die dann gelernt.
Außerdem die Folien zu obigen Vorlesungen, Rabiner, 1993
für
HMMs. Von Jurafsky/Martin kommt nächstes Jahr eine neue
Auflage
heraus, von der schon viele Kapitel online stehen. Gerade didaktisch
wird es wohl deutlich besser.
Protokoll
- Wir fangen an mit endlichen Automaten. Wozu werden die denn
in der Sprachverarbeitung benutzt?
- FSA, FST für Morphologie (obwohl sie eigentlich
nicht regulär ist), Phonotaktik (Aussprache), Chunking/shallow
parsing
- Nachfragen:
- Beispiel zu Phonotaktik, Unterschied semantisches bzw.
syntaktisches Chunking (ähm, äh, Mechanismus ist
derselbe, Schwerpunktlegung unterscheidet sich, mit Stelligkeit der
Verben verrannt aber gemerkt), was sind gute Chunks für
shallow parsing (ich: syntaktisch: Eigennamen, semantisch: Firmen vs.
Ländernamen vs. Städtenamen. er wollte noch Datum,
Uhrzeit als semantische Kategorien)
- wieso ist denn Morphologie nicht regulär?
(Beispiel: erstaunlich, bei dem regulär zwei unterschiedliche
"staun" im Automaten sein müssen, damit nicht auch
"*staunlich" generiert wird) was können denn reguläre
Sprachen nicht? (etwas rumgedruckst, anbn,
zentrale Rekursion erklärt, aber nicht das Wort ausgesprochen)
- eigentlich wollte er noch Dialogmanagement als
Beispiel, hatte es dann aber auch vergeohne ssen
- Sehr in Mode gekommen sind in den letzten Jahren vor allem
probabilistische Methoden. Was gibt's, wofür wird's benutzt?
- es gibt N-Gramme, gewichtete Automaten/Markov-Ketten,
HMMs, PCFGs
- N-Gramme werden in Language Modellen benutzt, um die
Wahrscheinlichkeit von Äußerungen gemessen an einem
Korpus zu ermitteln
- Beispiel probabilistische Übersetzung:
Zielsatz soll "gut" sein und Zielsatz soll den Quellsatz gut abbilden
- Beispiel Spracherkenner: Übergang zwischen den
Wortmodellen erfolgt nach Bigramm-Wahrscheinlichkeit
- Nachfragen: sind also besonders große
N-Gramme (N → ∞) besser? Data Sparsity,
Entfernung der Abhängigkeiten, Backoff, Smoothing,
Einmalgesehenes als Indikator für nie gesehenes, Deleted
Interpolation
- PCFGs sind gewichtete Regelsysteme, die die
wahrscheinlichsten Ableitungen bevorzugen, eigentlich besser
lexikalisiertes PCFG, weil Wahrscheinlichkeiten von der Position der
Konstituenten abhängt
- Markov-Ketten
- sind die eigentlich das selbe wie N-Gramme?
Grübelgrübel: Ja. (war richtig!)
- HMMs:
- (Q, A, B), Diagramm gemalt, unterschiedliche Aufgaben
(FW-, Viterbi-, FW/BW-Algorithmen)
- Beispiel POS-Tagging: Tags sind Zustände,
Wörter Symbole, Viterbi-Algorithmus liefert Tagfolge
- Beispiel Spracherkenner
- vermutlich noch ein oder zwei Nachfragen, hat ihn aber
nicht interessiert, weil er der Meinung war, dass ich es eh
könne (zu recht)
- Semantik, Syntax ohne Semantik bringt ja nix
- genau, Kompositionalitätsprinzip, PL als
Bedeutungsrepräsentationssprache, Formeln an die Atome,
Umformungen an die Produktionen. Beispiel: Luigi backt Pizza,
Reifizierung erklärt (backt Pizza heute abend),
λ-Kalkül/Funktionsanwendung für Verben,
Sätze, thematische Rollen erwähnt
- Nachfragen: ich hatte zunächst keinen Syntaxbaum
über das Beispiel gemalt, aber die Regeln der CFG
hingeschrieben, vielleicht noch was
- Etwas wieder aus der Mode gekommen ist Unifikation,
wofür ist das denn gut?
- Problem der Übergenerierung bzw. der
aufgeblasenen Grammatik durch Kategorien
- Kategorien in Merkmalsvektoren, Unifizierbarkeit,
Unifizierung (Algorithmus war ihm wieder egal :-( )
- Beispiel Sprachgenerierung, funktionale Form eingeben und
Grammatik bildet die Ausgabe, die gesammte Grammatik steht in einer
Merkmalsstruktur, es wird nur unifiziert, sonst nichts
- fertig. Zeit wohl deutlich überschritten
Viel Glück bei Deiner Prüfung!
1baumann