Seminar Natural Language Processing im Sommersemester 2017 – Parsing und Induktion
Allgemeine Informationen
Themengebiete
Das Seminar beschäftigt sich mit den zwei Themengebieten Parsing und Induktion.- Parsing: Gegeben ist eine formale Grammatik (z.B. Kontextfreie Grammatik, Reguläre Baumgrammatik, etc.) und ein Objekt (z.B. Wort oder Baum). Parsing ist die Fragestellung, ob (und wie) das Objekt durch die Grammatik erzeugt werden kann. Beispielsweise kann so überprüft werden, ob ein gegebener natürlichsprachlicher Satz grammatikalisch korrekt ist, er also den Richtlinien einer dafür geschaffenen formalen Grammatik folgt.
- Induktion: Gegeben ist eine Menge von Objekten (z.B. Wörter oder Bäume). Induktion erzeugt eine formale Grammatik (z.B. Kontextfreie Grammatik, Reguläre Baumgrammatik, etc.), die einerseits alle gegebenen Objekte erzeugen kann, und außerdem struktuell ähnliche, verallgemeinerte Objekte erzeugt. Beispielsweise kann aus den gesammelten Sätzen einer Tageszeitung eine formale Grammatik induziert werden, die deutsche Sätze erkennt.
Zielgruppen
Engagierte Studenten folgender Studiengänge:- Bachelor Informatik: Module INF-B-510 (Proseminar), INF-B-520 (Proseminar), INF-B-610 (Proseminar)
- Master Informatik: Modul INF-AQUA (Seminar)
- Diplom Informatik: Module INF-D-520 (Proseminar), INF-D-940 (Seminar)
- Diplom Informatik (Studienordnung 2004 oder älter): Hauptseminar, Fachgebiet Theorie der Programmierung
Voraussetzungen für die Teilnahme
- Bachelor Informatik: Modul INF-B-290 (Theoretische Informatik und Logik)
- Master Informatik: keine; Grundlagenwissen über die Themengebiete wird empfohlen
- Diplom Informatik: Modul INF-D-330 (Theoretische Informatik und Logik)
- Diplom Informatik (Studienordnung 2004 oder älter): Grundlagen der Theoretischen Informatik
Voraussetzungen für das Bestehen
- fristgerecht und eigenständig Termine mit den Betreuern verabreden (mindestens 1 Woche im Voraus) sowie die geforderten Materialien abgeben
- (nicht für Proseminar) Seminararbeit von 12–15 Seiten, mit Titel, Autor, Einleitung (mind. 1 Seite), vollständigen Referenzen, begrifflich und notationell in sich abgeschlossen, Inhalte mit Beispielen und Bildern anschaulich gemacht; davon eine Vorabversion: inhaltlich vollständig, aber in der Darstellung noch rudimentär
- (nur für Proseminar) Handout 1–2 Seiten (nur ein Blatt!)
- (für alle) Vortrag von 30–35 Minuten, durch Medien geeignet unterstützt: Beamer-Folien, Tafel, physische Folien, Handout etc.; von allem eine Vorabversion: inhaltlich vollständig, aber in der Darstellung noch rudimentär
- Anwesenheit bei allen Vorträgen, aktive Teilnahme an den Diskussionen
- bei Einbringen in eine mündliche Prüfung: Übersichtswissen über die Seminarbeiträge (Kernthesen)
Terminplan
Datum | Ereignis |
---|---|
14. KW, Donnerstag, 06. April 2017, 09:20 Uhr | Erstes Treffen und Themenvergabe im Raum APB/3027 (Fakultät Informatik) [slides] |
bis 16. KW, 21. April 2017 | Termine mit Betreuern (rechtzeitig verabreden!); Ziel: in der Lage sein, dem Betreuer das Problem und die beschriebenen Ansätze zu skizzieren und auf Nachfragen zu reagieren; Fragen an den Betreuer müssen ganz konkret formuliert werden. |
bis 19. KW, 12. Mai 2017 | Vorabversion der Seminararbeit abgeben, Termine zur Besprechung machen |
bis 21. KW, 26. Mai 2017 | Fertige Seminararbeit abgeben |
bis 22. KW, 02. Juni 2017 | Vorabversion der Vortragsmaterialien abgeben, Termine zur Besprechung machen |
bis 24. KW, 16. Juni 2017 | Fertige Vortragsmaterialien abgeben |
23. Juni 2017 | Vorträge, APB/3027, 13:00 Uhr |
Themen
Die folgenden Themen stehen zur Auswahl:
Thema | Literatur | Anmerkungen | Student |
---|---|---|---|
Incremental Discontinuous Phrase Structure Parsing with the GAP Transition | [CC17] [HN08] |
||
A Dynamic Oracle for Arc-Eager Dependency Parsing | [GN12] [Niv08, Sec. 4.2] |
||
An Efficient Dynamic Oracle for Unrestricted Non-Projective Parsing | [GF15] [Cov01] |
||
Learning to Prune: Pushing the Frontier of Fast and Accurate Parsing | [VE17] | Andy Püschel | |
An Efficient Best-Trees Algorithm for Weighted Tree Automata over the Tropical Simiring | [BDZ15] | ||
n-Best Parsing Revisited | [BGSV10] [HC05] |
Olaf Gröscho | |
Stochastic Inference of Regular Tree Languages | [COC01] | ||
Extracting Deeper Information from Richer Resource: EM-Models for LTAG Treebank Induction | [SJ04] [She04] [Che01] |
Literatur
Einige Downloads sind nur aus dem Universitätsnetz erlaubt. Falls Sie gerade keinen direkten Zugang zum Universitätsnetz haben, können Sie auf das VPN der TU Dresden zurückgreifen.
[BDZ15] | Björklund J, Drewes F and Zechner N (2015), "An Efficient Best-Trees Algorithm for Weighted Tree Automata over the Tropical Semiring", In Language and Automata Theory and Applications: 9th International Conference, LATA 2015, Nice, France, March 2-6, 2015, Proceedings. Cham , pp. 97-108. Springer International Publishing. |
[BGSV10] | Büchse M, Geisler D, Stüber T and Vogler H (2010), "n-Best Parsing Revisited", In Proceedings of the 2010 Workshop on Applications of Tree Automata in Natural Language Processing. Uppsala, Sweden, July, 2010. , pp. 46-54. Association for Computational Linguistics. |
[COC01] | Carrasco RC, Oncina J and Calera-Rubio J (2001), "Stochastic Inference of Regular Tree Languages", Machine Learning. Vol. 44(1-2), pp. 185-197. Kluwer Academic Publishers. |
[Che01] | Chen J (2001), "Towards Efficient Statistical Parsing using Lexicalized Grammar Information". Thesis at: University of Delaware. |
[CC17] | Coavoux M and Crabbé B (2017), "Incremental Discontinuous Phrase Structure Parsing with the GAP Transition", In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. |
[Cov01] | Covington MA (2001), "A fundamental algorithm for dependency parsing", In In Proceedings of the 39th Annual ACM Southeast Conference. , pp. 95-102. |
[GN12] | Goldberg Y and Nivre J (2012), "A Dynamic Oracle for Arc-Eager Dependency Parsing", In Proceedings of COLING 2012. Mumbai, India, December, 2012. , pp. 959-976. The COLING 2012 Organizing Committee. |
[GF15] | Gómez-Rodríguez C and Fernández-González D (2015), "An Efficient Dynamic Oracle for Unrestricted Non-Projective Parsing", In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Beijing, China, July, 2015. , pp. 256-261. Association for Computational Linguistics. |
[HN08] | Hall J and Nivre J (2008), "Parsing Discontinuous Phrase Structure with Grammatical Functions", In Advances in Natural Language Processing: 6th International Conference, GoTAL 2008 Gothenburg, Sweden, August 25-27, 2008 Proceedings. Berlin, Heidelberg , pp. 169-180. Springer Berlin Heidelberg. |
[HC05] | Huang L and Chiang D (2005), "Better K-best Parsing", In Proceedings of the Ninth International Workshop on Parsing Technology. Stroudsburg, PA, USA , pp. 53-64. Association for Computational Linguistics. |
[Niv08] | Nivre J (2008), "Algorithms for Deterministic Incremental Dependency Parsing", Comput. Linguist.. Cambridge, MA, USA, December, 2008. Vol. 34(4), pp. 513-553. MIT Press. |
[She04] | Shen L (2004), "Nondeterministic ltag derivation tree extraction", In Proceedings of the 7th International Workshop on Tree Adjoining Grammar and Related Formalisms., 05, 2004. |
[SJ04] | Shen L and Joshi AK (2004), "Extracting Deeper Information from Richer Resource: EM Models for LTAG Treebank Induction", In In Proceedings of IJCNLP 2004. |
[VE17] | Vieira T and Eisner J (2017), "Learning to Prune: Pushing the Frontier of Fast and Accurate Parsing", Transactions of the Association for Computational Linguistics (TACL)., February, 2017. Vol. 5 |
Hilfsangebote
Wir haben einige Hinweise zum Verfassen schriftlicher Arbeiten online zur Verfügung gestellt. Zögern Sie nicht sich bei Fragen an Ihren Betreuer zu wenden. Je eher ein Problem angesprochen wird, desto einfacher wird seine Lösung ausfallen.
Außerdem möchten wir noch einen Blog-Eintrag zur Vorbereitung und Gestaltung von (wissenschaftlichen) Vorträgen empfehlen. Wichtig ist uns die anschauliche (beispielgetriebene) Darstellung der zentralen Inhalte/ Ideen des bearbeiteten Themas. Die Folien sollten nicht überladen sein. Sie können mit Präsentationsprogrammen oder LaTeX Beamer erstellt werden, sollten aber als PDF abgegeben werden.