3 research outputs found

    Joint Representation Learning of Cross-lingual Words and Entities via Attentive Distant Supervision

    Full text link
    Joint representation learning of words and entities benefits many NLP tasks, but has not been well explored in cross-lingual settings. In this paper, we propose a novel method for joint representation learning of cross-lingual words and entities. It captures mutually complementary knowledge, and enables cross-lingual inferences among knowledge bases and texts. Our method does not require parallel corpora, and automatically generates comparable data via distant supervision using multi-lingual knowledge bases. We utilize two types of regularizers to align cross-lingual words and entities, and design knowledge attention and cross-lingual attention to further reduce noises. We conducted a series of experiments on three tasks: word translation, entity relatedness, and cross-lingual entity linking. The results, both qualitatively and quantitatively, demonstrate the significance of our method.Comment: 11 pages, EMNLP201

    Foundation, Implementation and Evaluation of the MorphoSaurus System: Subword Indexing, Lexical Learning and Word Sense Disambiguation for Medical Cross-Language Information Retrieval

    Get PDF
    Im medizinischen Alltag, zu welchem viel Dokumentations- und Recherchearbeit gehört, ist mittlerweile der überwiegende Teil textuell kodierter Information elektronisch verfügbar. Hiermit kommt der Entwicklung leistungsfähiger Methoden zur effizienten Recherche eine vorrangige Bedeutung zu. Bewertet man die Nützlichkeit gängiger Textretrievalsysteme aus dem Blickwinkel der medizinischen Fachsprache, dann mangelt es ihnen an morphologischer Funktionalität (Flexion, Derivation und Komposition), lexikalisch-semantischer Funktionalität und der Fähigkeit zu einer sprachübergreifenden Analyse großer Dokumentenbestände. In der vorliegenden Promotionsschrift werden die theoretischen Grundlagen des MorphoSaurus-Systems (ein Akronym für Morphem-Thesaurus) behandelt. Dessen methodischer Kern stellt ein um Morpheme der medizinischen Fach- und Laiensprache gruppierter Thesaurus dar, dessen Einträge mittels semantischer Relationen sprachübergreifend verknüpft sind. Darauf aufbauend wird ein Verfahren vorgestellt, welches (komplexe) Wörter in Morpheme segmentiert, die durch sprachunabhängige, konzeptklassenartige Symbole ersetzt werden. Die resultierende Repräsentation ist die Basis für das sprachübergreifende, morphemorientierte Textretrieval. Neben der Kerntechnologie wird eine Methode zur automatischen Akquise von Lexikoneinträgen vorgestellt, wodurch bestehende Morphemlexika um weitere Sprachen ergänzt werden. Die Berücksichtigung sprachübergreifender Phänomene führt im Anschluss zu einem neuartigen Verfahren zur Auflösung von semantischen Ambiguitäten. Die Leistungsfähigkeit des morphemorientierten Textretrievals wird im Rahmen umfangreicher, standardisierter Evaluationen empirisch getestet und gängigen Herangehensweisen gegenübergestellt

    Language Management in a Japanese Multinational Company: A Data-Driven Approach

    Get PDF
    Globalization poses a challenge for businesses with linguistically diverse staff, prompting the choice of English as the default corporate language. In Japan, research on the use of English in business contexts from both corporate and employees' perspectives is very limited, let alone studies adopting a data-driven approach. This study focuses on Rakuten, a Japanese multinational corporation (MNC), with the aim of illustrating the key challenges the company faces when it adopts English as its official language. The research is interdisciplinary and is positioned at the intersection of business communication, computational sociolinguistics, and language management. The first article, "Content analysis of language-sensitive recruitment influenced by corporate language policy using topic modeling", explores the match (or mismatch) between language-sensitive recruitment (English, Japanese, or bilingual) and corporate language policy. The second article, "It is all about TOEIC: discovering topics and trends m employee perceptions of corporate language policy", examines the barriers m multinational companies that have adopted a foreign language and analyzes employees' attitudes. The third and final article, "Analyzing cultural expatriates' attitude toward 'Englishnization' using dynamic topic modeling", investigates changes in employee' perceptions of Japanese work practices and values over time. The results of my study have implications for the implementation of language-sensitive recruitment in a multilingual corporate context. Furthermore, the thesis also highlights the evolutionary nature of corporate language policy topics by exploring and categorizing large amounts of text. Overall, the results presented in the three articles expand the understanding of the challenges associated with the use of English in a Japanese busines