Ergänzungen zum Maschinelles Übersetzen natürlicher Sprachen im Sommersemester 2017
Um einen Satz in einer natürlichen Sprache maschinell zu verarbeiten, muss dieser in einer geeigneten Form im Computer repräsentiert werden. Diese Vorlesung befasst sich mit der Darstellung von natürlichsprachlichen Sätzen als sogenannte Hybridbäume. Es wird gezeigt, warum ein Hybridbaum eine geeignete Datenstruktur darstellt und mit welchen formalen Modellen ein Satz automatisch in einen Hybridbaum überführt werden kann. Zudem behandelt die Vorlesung, wie verschiedene Grammatikformalismen aus einer repräsentativen Menge von Hybridbäumen gewonnen werden können.
Die erste Vorlesung findet am 3. April statt, die erste Übung am 12. April.
- Montags, 2. DS (09:20–10:50 Uhr), APB/E006: Vorlesung
- Donnerstags, 5. DS (14:50–16:20 Uhr), APB/E006: Vorlesung
- Mittwochs, 3. DS (11:10–12:40 Uhr), APB/E008: Übung
In der Woche vom 26.06. bis 29.06. fallen die Vorlesungen und die Übung aus. Am 13.07. findet keine Vorlesung mehr statt.
- 2017-04-12: 1. Übungsblatt
- 2017-04-19: 2. Übungsblatt
- 2017-04-26: 3. Übungsblatt
- 2017-05-03: 4. Übungsblatt
- 2017-05-10: 5. Übungsblatt
- 2017-05-24: 6. Übungsblatt
- 2017-05-31, 2017-06-01: 7. Übungsblatt Notizen zu Aufgaben 1 und 3
- 2017-06-14: 8. Übungsblatt
- 2017-06-21: 9. Übungsblatt
- 2017-07-05: 10. Übungsblatt
- 2017-07-12: 11. Übungsblatt
Foliensatz (Nur aus dem Netz der TU abrufbar; ggf. über VPN herunterladen. Der Foliensatz wird regelmäßig auf den aktuellen Stand der Vorlesung gebracht.) Folien von Heiko Voglers Vortrag Parsing of Natural Languages bei der CAI 2017, welche unter anderem die Induktion von Hybridgrammatiken schrittweise graphisch veranschaulichen.
- 2017-04-03: Einführung zu phrase structures, dependency structures [MM08] und hybrid trees [NV14; GNV17]
- Berkeley parser für phrase structures online und zum Download
- Stanford Core NLP (dependency parser) online und zum Download
- 2017-04-06: Hybridbäume (formale Definition), Preliminarien
- 2017-04-10: Quality Measures
- 2017-04-10, 2017-04-13: Transitionssysteme [KMN09]
- 2017-04-20: Regular tree grammars,
-algebras, and
-homomorphisms [Gog+77]
- 2017-04-20: Context-free grammar as RTG + algebra
- 2017-04-24: Other RTG-based models
- Linear context-free rewriting systems [VWJ87; Kal10]
- Range concatenation grammars [Bou00]
- LCFRS-algebra over
, fan-out
- Extended top-down tree transducer [Rou70; AD76; GKM08; Mal+09]
- Synchronous context-free grammars [Chi07] (transduction grammars [LS68])
- Synchronous tree substitution grammars [Sch90]
- Synchronous tree-adjoining grammars [ASJ90; SS90; JS97]
- Linear context-free rewriting systems [VWJ87; Kal10]
- 2017-04-27, 2017-05-04: LCFRS to describe hybrid trees
- properties of LCFRS: simple, lexicalized
- derivation tree generated by a LCFRS, dependency graph
- tree traversal algorithm to obtain a hybrid tree from a derivation tree of a simple or lexicalized LCFRS
- grammar induction for LCFRS
- 2017-05-04, 2017-05-08: Probabilistic RTG and Training
- 2017-05-11: Parsing with LCFRS
- 2017-05-15: Simple definite clause programs (sDCP) [DM85] (see also attribute grammars [Knu68])
- synthesized attributes, inherited attributes
- simpleness (syntactic single use requirement) [Gie88]
- 2017-05-18, 2017-05-22: Hybrid grammars [NV14; GNV17].
- potential string grammar component: regular grammar, context-free grammar, LCFRS, macro grammar [Fis68]
- potential tree grammar component: regular tree grammar, context-free tree grammar [Rou70; ES78], tree adjoining grammar, sDCP
- we consider only (LCFRS,sDCP)-hybrid grammars
- shape of a rule of a hybrid grammar
- derivation relation of a hybrid grammar
- probabilistic hybrid grammars
- parsing a string with a probabilistic hybrid grammar
- 2017-05-22, 2017-05-29: (Recursive) Partitionings [NV14; GNV17]
- Recall parsing complexity of LCFRS (degree)
- Definition recursive partitioning
- Induction of a LCFRS from a string and a recursive partitioning
- Left branching and right branching recursive partitioning
- Extraction of a recursive partitioning from a hybrid tree
- Transformation of a recursive partitioning for reducing the fanout
- 2017-06-12: Definitions of top, bottom, gspans, and closure of a set of tree positions
- 2017-06-19: Induction of an sDCP from a phrase structure/dependency structure and a recursive partitioning [NV14; GNV17]
- 2017-06-22: Synchronization of induced LCFRS and sDCP to a hybrid grammar, induction on a corpus, naming scheme (strict labeling)
- 2017-07-02, 2017-07-06: n-best parsing
- 2017-07-10: Experiments
- Penn Treebank [MSM94] Download (von TU lizenziert, Account wird benötigt)
- Universal dependencies Dependency Korpora in verschiedenen Sprachen in einem einheitlichen Format unter CC Lizenz.
- Tiger Korpus [For+04; Bra+04] Download
- Negra Korpus [Sku+97] Informationen zur Lizenzierung
weiterführende Literatur: ACL Anthology – “over 40,000 papers on the study of computational linguistics and natural language processing”