5 research outputs found

    Translation Alignment and Extraction Within a Lexica-Centered Iterative Workflow

    Get PDF
    This thesis addresses two closely related problems. The first, translation alignment, consists of identifying bilingual document pairs that are translations of each other within multilingual document collections (document alignment); identifying sentences, titles, etc, that are translations of each other within bilingual document pairs (sentence alignment); and identifying corresponding word and phrase translations within bilingual sentence pairs (phrase alignment). The second is extraction of bilingual pairs of equivalent word and multi-word expressions, which we call translation equivalents (TEs), from sentence- and phrase-aligned parallel corpora. While these same problems have been investigated by other authors, their focus has been on fully unsupervised methods based mostly or exclusively on parallel corpora. Bilingual lexica, which are basically lists of TEs, have not been considered or given enough importance as resources in the treatment of these problems. Human validation of TEs, which consists of manually classifying TEs as correct or incorrect translations, has also not been considered in the context of alignment and extraction. Validation strengthens the importance of infrequent TEs (most of the entries of a validated lexicon) that otherwise would be statistically unimportant. The main goal of this thesis is to revisit the alignment and extraction problems in the context of a lexica-centered iterative workflow that includes human validation. Therefore, the methods proposed in this thesis were designed to take advantage of knowledge accumulated in human-validated bilingual lexica and translation tables obtained by unsupervised methods. Phrase-level alignment is a stepping stone for several applications, including the extraction of new TEs, the creation of statistical machine translation systems, and the creation of bilingual concordances. Therefore, for phrase-level alignment, the higher accuracy of human-validated bilingual lexica is crucial for achieving higher quality results in these downstream applications. There are two main conceptual contributions. The first is the coverage maximization approach to alignment, which makes direct use of the information contained in a lexicon, or in translation tables when this is small or does not exist. The second is the introduction of translation patterns which combine novel and old ideas and enables precise and productive extraction of TEs. As material contributions, the alignment and extraction methods proposed in this thesis have produced source materials for three lines of research, in the context of three PhD theses (two of them already defended), all sharing with me the supervision of my advisor. The topics of these lines of research are statistical machine translation, algorithms and data structures for indexing and querying phrase-aligned parallel corpora, and bilingual lexica classification and generation. Four publications have resulted directly from the work presented in this thesis and twelve from the collaborative lines of research

    Cross-language Ontology Learning: Incorporating and Exploiting Cross-language Data in the Ontology Learning Process

    Get PDF
    Hans Hjelm. Cross-language Ontology Learning: Incorporating and Exploiting Cross-language Data in the Ontology Learning Process. NEALT Monograph Series, Vol. 1 (2009), 159 pages. © 2009 Hans Hjelm. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/10126

    Interaktive Verhaltenssteuerung für Robot Companions

    Get PDF
    Kleinehagenbrock M. Interaktive Verhaltenssteuerung für Robot Companions. Bielefeld (Germany): Bielefeld University; 2004.Das Bestreben in der Robotikforschung, Roboter zu entwickeln, die dem Menschen gewisse Dienste erweisen, ist nach wie vor ungebrochen. Dabei konzentriert sich die aktuelle Entwicklung zunehmend auf den Privatgebrauch: Es ist das Ziel, persönliche Roboter zu entwickeln, die in Zukunft mit Menschen, einem Kameraden ähnlich, das Zuhause teilen können. Damit Menschen geneigt sind, sich einen solchen Robot Companion zuzulegen, muss er nützlich und einfach zugänglich sein. Somit sind einerseits Fähigkeiten, wie z.B. "Tisch abräumen" und "Blumen gießen", zu realisieren. Andererseits sind die wenigsten Menschen Experten für Robotik. Daher sollte der Roboter intuitiv bedienbar sein, so dass ein natürlicher Umgang zwischen Mensch und Robot Companion entsteht. Folglich muss der Roboter Dialoge in natürlicher Sprache führen können und Zeigegesten erkennen. Da solche Interaktionen in Privatwohnungen stattfinden, kann der Roboter weder die Umgebung noch alle dort denkbaren Gegenstände im Voraus kennen. Somit muss er dieses Wissen erlernen, um es in weiteren Interaktionen nutzen zu können. Um diese Herausforderungen zu lösen, war es ein Ziel dieser Arbeit, eine Software-Architektur für Robot Companions zu entwickeln. Das Konzept der Architektur sollte möglichst flexibel und erweiterbar sein, um diverse Interaktionsfähigkeiten integrieren zu können. Als weiteres Ziel sollte die Basis zur Interaktion mit Menschen geschaffen werden. Dazu wurde ein neuartiges multimodales Personen-Tracking entwickelt, das mit weiteren Interaktionsmodulen in der realisierten Architektur zu integrieren war. Das entwickelte Personen-Tracking ist multimodal, da es Daten von drei verschiedenen Sensorsystemen verarbeitet, um vor dem Roboter anwesende Personen robust zu verfolgen. Zur Sensordatenfusion wurde das "Multimodale Anchoring" entwickelt. Dieser neuartige Ansatz erlaubt es, gleichzeitig mehrere Personen anhand ihrer Gesichter, Oberkörper, Stimmen und Beine zu verfolgen, und sie auch voneinander zu unterscheiden. Somit kann eine Person bevorzugt betrachtet werden, indem die Sensoren auf sie gerichtet werden. Durch zugehörige Experimente wird die Leistungsfähigkeit des multimodalen Verfahrens belegt. Neben dem Personen-Tracking werden jeweils eine Aufmerksamkeitssteuerung für Personen und Objekte und eine Dialogsteuerung vorgestellt. Diese Module sind im Rahmen anderer Promotionsvorhaben entwickelt worden und es galt, sie ebenfalls im Gesamtsystem zu integrieren. Die Aufmerksamkeitssteuerung für Personen setzt auf dem Personen-Tracking auf und bestimmt den Interaktionspartner des Roboters. Zur sprachlichen Kommunikation mit dem Benutzer ist die Dialogsteuerung verantwortlich. Für das Erfassen von zu lernenden Gegenständen dient die Aufmerksamkeitssteuerung für Objekte, die sprachliche und gestische Informationen kombiniert. Zur Entwicklung der Software-Architektur wurden Architekturen bestehender Robotersysteme untersucht und funktionale und strukturelle Anforderungen an einen Robot Companion formuliert. Das daraus entwickelte Architekturkonzept ist eine besonders flexible Drei-Ebenen-Architektur, die zur Koordination des Systems einen zentralen "Execution Supervisor" (ESV) besitzt und per XML kommuniziert. Der ESV empfängt von angebundenen Modulen Nachrichten, die Aktionen auslösen, wie z.B. das Weiterleiten von Daten an andere Module und das Rekonfigurieren des Systems. Dieses Konzept wurde schließlich für den Roboter BIRON umgesetzt. Dabei wurde der ESV so implementiert, dass er äußerst generisch ist: Um ihn zu modifizieren, muss nur eine Konfigurationsdatei angepasst werden, die ebenfalls in XML spezifiziert ist. Die Kommunikation basiert dabei auf dem "XML enabled Communication Framework" und ist somit äußerst transparent. Außerdem wurden Benutzerexperimente mit BIRON durchgeführt, wobei dessen Interaktionsfähigkeiten als recht natürlich eingestuft wurden. Da für eine flüssige Interaktion das System nicht zu langsam reagieren darf, wurden auch gewisse Zeitmessungen vorgenommen. Diese zeigen, dass der Zeitaufwand, der durch die Architektur verursacht wird, im Vergleich zu den Berechnungen der integrierten Module gering ist und somit eine flüssige Interaktion erlaubt. Das System wurde außerdem auf der IST 2004 in Den Haag präsentiert, wo zwei BIRONs an drei Tagen insgesamt 24 Stunden lang erfolgreich präsentiert wurden. Folglich bietet das präsentierte Architekturkonzept eine hervorragende Basis zur Entwicklung von Robot Companions. Durch die Integration der vorgestellten Modulen ergibt sich bereits ein grundlegendes System zur natürlichen Mensch-Roboter-Interaktion. Da es auf Erweiterbarkeit ausgelegt ist, können andere Funktionalitäten einfach hinzugefügt werden. Diese Generizität wird insbesondere durch XML ermöglicht. XML wird zur Konfiguration des ESV und zur Kommunikation mit den angebundenen Modulen verwendet. Nur so kann das bereits umfangreiche System auch in Zukunft noch umfangreich erweitert werden

    Acta Cybernetica : Volume 15. Number 4.

    Get PDF
    corecore