Maschinelles Übersetzen natürlicher Sprachen im Wintersemester 2017/18
Beim maschinellen Übersetzen von Texten in einer natürlichen Sprache in eine andere kommen verschiedene Formalismen wie Grammatiken und Automaten zum Einsatz. Diese Vorlesung gibt einen Überblick, wie man solche Formalismen zur Modellierung von natürlichsprachlichen Übersetzungen nutzen kann und wie man ein so modelliertes Übersetzungssystem anhand von Beispielen trainiert.
Termine
- Montags, 3. DS (11:10 – 12:40 Uhr), APB/E010: Vorlesung
- Donnerstags, 2. DS (09:20 – 10:50 Uhr), APB/E007: Vorlesung
- Donnerstags, 4. DS (13:00 – 14:30 Uhr), APB/E009: Übung
Die Übung am 30.11.2017 um 13:00 Uhr findet im PC-Pool E065 statt.
Die erste Vorlesung findet am 09.10.2017 statt. Die erste Übung findet am 19.10.2017 statt.
Alle interessierten Studierenden sind auch herzlich zum Freitagsseminar eingeladen.
Übungsaufgaben
Nur aus dem Netz der TU abrufbar; ggf. über VPN herunterladen.
- 2017-10-19: 1. Übungsblatt [Lösung zu Aufgabe 2.8]
- 2017-10-26: 2. Übungsblatt
- 2017-11-02: 3. Übungsblatt
- 2017-11-09: 4. Übungsblatt
- 2017-11-16: 5. Übungsblatt
- 2017-11-23: 6. Übungsblatt (auch für 2017-12-07)
- 2017-11-30: 7. Übungsblatt (findet im Raum E065 statt)
- Englisches Satzkorpus
- Deutsches Satzkorpus
- Python Skript zur Anzeige von Parsebäumen. Dazu muss NLTK (
pip2 install nltk --user
) installiert sein. Möglicherweise muss auch noch TkInter (heißt je nach Distributiontk
oderpython-tk
) installiert werden.
- 2017-12-14: 8. Übungsblatt
- 2018-01-04: 9. Übungsblatt
- 2018-01-18: 10. Übungsblatt
- 2018-01-25: 11. Übungsblatt
- 2018-02-01: 12. Übungsblatt
Material
Nur aus dem Netz der TU abrufbar; ggf. über VPN herunterladen.
Die Folien werden regelmäßig entsprechend des Vorlesungsstands aktualisiert. Hier ist eine Übersicht zu den verschiedenen Instanzen des generischen EM-Algorithmus.
Weitere Materialien werden im Laufe der Vorlesung zur Verfügung gestellt. Sie können sich vorab anhand des vorherigen Vorlesungsdurchlaufs einen Überblick verschaffen.
Literatur
- Baum, L.E., Petrie, T., Soules, G., and Weiss, N. 1970. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. The annals of mathematical statistics, 164–171. [url]
- Brown, P.F., Pietra, V.J.D., Pietra, S.A.D., and Mercer, R.L. 1993. The mathematics of statistical machine translation: parameter estimation. Comput. Linguist. 19, 2, 263–311. [url]
- Chiang, D. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics 33, 2, 201–228. [doi, url]
- Dempster, A.P., Laird, N.M., and Rubin, D.B. 1977. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B (Methodological) 39, 1, 1–38. [url]
- Dupont, P., Denis, F., and Esposito, Y. 2005. Links between probabilistic automata and hidden Markov models: probability distributions, learning models and induction algorithms. Pattern Recognition 38, 9, 1349–1371. [doi, url]
- Hopcroft, J.E., Motwani, R., and Ullman, J.D. 2006. Introduction to Automata Theory, Languages, and Computation (3rd Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA. [url]
- Huang, L. and Chiang, D. 2005. Better K-best Parsing. Proceedings of the Ninth International Workshop on Parsing Technology, Association for Computational Linguistics, 53–64. [url]
- Hutchins, W.J. and Somers, H.L. 1992. An introduction to machine translation. London: Academic Press. [url]
- Jurafsky, D. and Martin, J.H. 2000. Speech and Language Processing – An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. [url]
- Klein, D. and Manning, C.D. 2003. A* parsing: fast exact Viterbi parse selection. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1, Association for Computational Linguistics, 40–47. [url]
- Knaster, B. and Tarski, A. 1928. Un théoreme sur les fonctions d’ensembles. Ann. Soc. Polon. Math 6, 133, 2013134.
- Knight, K. 1999. Squibs and Discussion – Decoding complexity in word-replacement translation models. Computational Linguistics 25(4), 607–615. [url]
- Knight, K. 1997. Automating knowledge acquisition for machine translation. AI Mag, 81–96. [url]
- Knight, K. 1999. Decoding complexity in word-replacement translation models. Comput. Linguist. 25, 4, 607–615. [url]
- Knuth, D.E. 1977. A Generalization of Dijkstra’s Algorithm. Inform. Process. Lett. 6, 1, 1–5. [doi]
- Kuich, W. 1998. Formal power series over trees. 3rd International Conference on Developments in Language Theory, DLT 1997, Thessaloniki, Greece, Proceedings, Aristotle University of Thessaloniki, 61–101.
- Lari, K. and Young, S.J. 1990. The estimation of stochastic context-free grammars using the Inside-Outside algorithm. Computer Speech and Language 4, 1, 35–56. [doi, url]
- Lewis II, P.M. and Stearns, R.E. 1968. Syntax-Directed Transduction. Journal of the ACM 15, 3, 465–488. [doi, url]
- Lopez, A. 2008. Statistical machine translation. ACM Comput. Surv. 40, 3, 8:1–8:49. [doi, url]
- McLachlan, G.J. and Krishnan, T. 2008. The EM algorithm and extensions. Wiley, Hoboken, NJ. [url]
- Mohri, M. 2009. Weighted automata algorithms. In: M. Droste, W. Kuich and H. Vogler, eds., Handbook of Weighted Automata. Springer-Verlag, 213–254.
- Och, F.J. and Ney, H. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics 29, 1, 19–51. [doi, url]
- Prescher, D. 2005. A Tutorial on the Expectation-Maximization Algorithm Including Maximum-Likelihood Estimation and EM Training of Probabilisitic Context-Free Grammars. University of Amsterdam. [url]
- Tarski, A. 1955. A lattice-theoretical fixpoint theorem and its applications. Pacific J. Math. 5, 2, 285–309. [url]
- Wang, Y.-Y. and Waibel, A. 1997. Decoding algorithm in statistical machine translation. Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, Association for Computational Linguistics, 366–372. [doi, url]
- Yamada, K. and Knight, K. 2001. A Syntax-based Statistical Translation Model. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics, 523–530. [doi, url]
- Yamada, K. and Knight, K. 2002. A Decoder for Syntax-based Statistical MT. Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 303–310. [doi, url]
- Higuera, C. de la. 2010. Grammatical Inference: Learning Automata and Grammars. Cambridge University Press, New York, NY, USA.
- Bar–Hillel, Y., Perles, M., and Shamir, E. 1961. On formal properties of simple phrase structure grammars. Z. Phonetik. Sprach. Komm. 14, 143–172. [doi]
- Ésik, Z. and Kuich, W. 2003. Formal Tree Series. J. Autom. Lang. Comb. 8, 2, 219–285.
Kontakt
-
Prof. Dr.-Ing. habil. Dr. h.c./Univ. Szeged
Heiko Vogler
Tel.: +49 (0) 351 463-38232 -
Dr.-Ing.
Kilian Gebhardt
Tel.: +49 (0) 351 463-38237