32 research outputs found

    Extraction Contextuelle de Concepts Ontologiques pour le Web Sémantique

    No full text
    National audienceDe nombreux travaux de recherche, s'intéressant à l'annotation, l'intégration des données, les services web, etc. reposent sur les ontologies. Le développement de ces applications dépend de la richesse conceptuelle des ontologies. Dans cet article, nous présentons l'extraction des concepts ontologiques à partir de documents HTML. Afin d'améliorer ce processus, nous proposons un algorithme de clustering hiérarchique non supervisé intitulé " Extraction de Concepts Ontologiques " (ECO) ; celui-ci utilise d'une façon incrémentale l'algorithme de partitionnement Kmeans et est guidé par un contexte structurel. Ce dernier exploite la structure HTML ainsi que la position du mot afin d'optimiser la pondération de chaque terme ainsi que la sélection du co-occurrent le plus proche sémantiquement. Guidé par ce contexte, notre algorithme adopte un processus incrémental assurant un raffinement successif des contextes de chaque mot. Il offre, également, le choix entre une exécution entièrement automatique ou interactive. Nous avons expérimenté notre proposition sur un corpus du domaine du tourisme en français. Les résultats ont montré que notre algorithme améliore la qualité conceptuelle ainsi que la pertinence des concepts ontologiques extraits

    Translation Alignment Applied to Historical Languages: methods, evaluation, applications, and visualization

    Get PDF
    Translation alignment is an essential task in Digital Humanities and Natural Language Processing, and it aims to link words/phrases in the source text with their translation equivalents in the translation. In addition to its importance in teaching and learning historical languages, translation alignment builds bridges between ancient and modern languages through which various linguistics annotations can be transferred. This thesis focuses on word-level translation alignment applied to historical languages in general and Ancient Greek and Latin in particular. As the title indicates, the thesis addresses four interdisciplinary aspects of translation alignment. The starting point was developing Ugarit, an interactive annotation tool to perform manual alignment aiming to gather training data to train an automatic alignment model. This effort resulted in more than 190k accurate translation pairs that I used for supervised training later. Ugarit has been used by many researchers and scholars also in the classroom at several institutions for teaching and learning ancient languages, which resulted in a large, diverse crowd-sourced aligned parallel corpus allowing us to conduct experiments and qualitative analysis to detect recurring patterns in annotators’ alignment practice and the generated translation pairs. Further, I employed the recent advances in NLP and language modeling to develop an automatic alignment model for historical low-resourced languages, experimenting with various training objectives and proposing a training strategy for historical languages that combines supervised and unsupervised training with mono- and multilingual texts. Then, I integrated this alignment model into other development workflows to project cross-lingual annotations and induce bilingual dictionaries from parallel corpora. Evaluation is essential to assess the quality of any model. To ensure employing the best practice, I reviewed the current evaluation procedure, defined its limitations, and proposed two new evaluation metrics. Moreover, I introduced a visual analytics framework to explore and inspect alignment gold standard datasets and support quantitative and qualitative evaluation of translation alignment models. Besides, I designed and implemented visual analytics tools and reading environments for parallel texts and proposed various visualization approaches to support different alignment-related tasks employing the latest advances in information visualization and best practice. Overall, this thesis presents a comprehensive study that includes manual and automatic alignment techniques, evaluation methods and visual analytics tools that aim to advance the field of translation alignment for historical languages

    Information retrieval and text mining technologies for chemistry

    Get PDF
    Efficient access to chemical information contained in scientific literature, patents, technical reports, or the web is a pressing need shared by researchers and patent attorneys from different chemical disciplines. Retrieval of important chemical information in most cases starts with finding relevant documents for a particular chemical compound or family. Targeted retrieval of chemical documents is closely connected to the automatic recognition of chemical entities in the text, which commonly involves the extraction of the entire list of chemicals mentioned in a document, including any associated information. In this Review, we provide a comprehensive and in-depth description of fundamental concepts, technical implementations, and current technologies for meeting these information demands. A strong focus is placed on community challenges addressing systems performance, more particularly CHEMDNER and CHEMDNER patents tasks of BioCreative IV and V, respectively. Considering the growing interest in the construction of automatically annotated chemical knowledge bases that integrate chemical information and biological data, cheminformatics approaches for mapping the extracted chemical names into chemical structures and their subsequent annotation together with text mining applications for linking chemistry with biological information are also presented. Finally, future trends and current challenges are highlighted as a roadmap proposal for research in this emerging field.A.V. and M.K. acknowledge funding from the European Community’s Horizon 2020 Program (project reference: 654021 - OpenMinted). M.K. additionally acknowledges the Encomienda MINETAD-CNIO as part of the Plan for the Advancement of Language Technology. O.R. and J.O. thank the Foundation for Applied Medical Research (FIMA), University of Navarra (Pamplona, Spain). This work was partially funded by Consellería de Cultura, Educación e Ordenación Universitaria (Xunta de Galicia), and FEDER (European Union), and the Portuguese Foundation for Science and Technology (FCT) under the scope of the strategic funding of UID/BIO/04469/2013 unit and COMPETE 2020 (POCI-01-0145-FEDER-006684). We thank Iñigo Garciá -Yoldi for useful feedback and discussions during the preparation of the manuscript.info:eu-repo/semantics/publishedVersio

    Language technologies for a multilingual Europe

    Get PDF
    This volume of the series “Translation and Multilingual Natural Language Processing” includes most of the papers presented at the Workshop “Language Technology for a Multilingual Europe”, held at the University of Hamburg on September 27, 2011 in the framework of the conference GSCL 2011 with the topic “Multilingual Resources and Multilingual Applications”, along with several additional contributions. In addition to an overview article on Machine Translation and two contributions on the European initiatives META-NET and Multilingual Web, the volume includes six full research articles. Our intention with this workshop was to bring together various groups concerned with the umbrella topics of multilingualism and language technology, especially multilingual technologies. This encompassed, on the one hand, representatives from research and development in the field of language technologies, and, on the other hand, users from diverse areas such as, among others, industry, administration and funding agencies. The Workshop “Language Technology for a Multilingual Europe” was co-organised by the two GSCL working groups “Text Technology” and “Machine Translation” (http://gscl.info) as well as by META-NET (http://www.meta-net.eu)

    Language technologies for a multilingual Europe

    Get PDF
    This volume of the series “Translation and Multilingual Natural Language Processing” includes most of the papers presented at the Workshop “Language Technology for a Multilingual Europe”, held at the University of Hamburg on September 27, 2011 in the framework of the conference GSCL 2011 with the topic “Multilingual Resources and Multilingual Applications”, along with several additional contributions. In addition to an overview article on Machine Translation and two contributions on the European initiatives META-NET and Multilingual Web, the volume includes six full research articles. Our intention with this workshop was to bring together various groups concerned with the umbrella topics of multilingualism and language technology, especially multilingual technologies. This encompassed, on the one hand, representatives from research and development in the field of language technologies, and, on the other hand, users from diverse areas such as, among others, industry, administration and funding agencies. The Workshop “Language Technology for a Multilingual Europe” was co-organised by the two GSCL working groups “Text Technology” and “Machine Translation” (http://gscl.info) as well as by META-NET (http://www.meta-net.eu)

    Werkzeuge für Rechtsdatenbanken

    Get PDF
    Wenn in Rechtstexten Wissen über das Recht enthalten ist, dann müsste in vielen Texten viel Recht zu finden sein. Die Korpuslinguistik bearbeitet linguistische Fragestellungen anhand großer Textmengen, die ausgewählt, erworben, aufbereitet (annotiert) und dann durchsucht/bearbeitet werden. Die fünf Kapitel dieser Arbeit widmen sich jeweils einem wichtigen Thema, zu dem Methoden vorgestellt, in Werkzeugen implementiert und diskutiert werden. Im ersten Kapitel (Dokumentklassifikation) wird eine Methode vorgestellt, mit der gezielt Rechtstexte aus dem Internet ausgewählt, akquiriert und geordnet in ein Korpus abgelegt werden können. Auch hier sollen die Voraussetzungen so gering wie möglich gehalten werden, damit möglichst breiter Gebrauch von der Methode gemacht werden kann. Die Einteilung des Rechts in einzelne Fachgebiete hat weitreichende Folgen. Sowohl Texte wie Rechtskonzepte erlangen ihre spezielle Bedeutung durch ihr Fachgebiet. Das zweite Kapitel (Fachgebietsklassifikation) gibt einen Überblick über die Problematik der Fachgebietseinteilung und stellt zwei automatische Fachgebietserkenner vor, die diese Spezialaufgabe besser lösen als die in Kapitel 1 vorgestellte allgemeine Dokumentklassifikation. Eine große Veränderung erfährt die Rechtsterminologie und -terminografie durch den Übergang von der physischen zur elektronischen Schrift. Damit muss nicht mehr eine Darstellungsweise allen Anforderungen gerecht werden, sondern die Darstellung kann dynamisch an die Umstände angepasst werden. Im dritten Kapitel (Dynamische Termdarstellung) wird das Konzept einer dynamischen Termdarstellung vorgestellt und seine technische Umsetzung skizziert. Das vierte Kapitel Termextraktion durch Beispielterme stellt eine automatische Termextraktionsmethode vor, die mit relativ geringen Voraussetzungen gute Ergebnisse liefert und damit für weniger stark verbreitete Sprachen eine Alternative zu kommerziellen Programmen darstellt. Dieses Instrument kann bei der zentralen Aufgabenstellung der Terminografie, dem Auffinden und der Auswahl der Termini, eingesetzt werden. Hier wird aber auch gezeigt, wie die Termextraktion zur Indizierung des in den meisten terminografischen Projekten vorhandenen Hintergrundkorpus verwendet werden kann. Das fünfte Kapitel (Organisation rechtlichen Wissens) gibt einen Überblick über die vielfältigen Möglichkeiten der Einteilung und Repräsentation von (rechtlichem) Wissen. Eine Methode der Wissensrepräsentation mit formaler Sprache, die logische Operationen ermöglicht, ist eine Ontologie. Es wurde eine Ontologie für eine Rechtsdatenbank erstellt und alle damit zusammenhängenden Aspekte diskutiert. Im Fazit wird schließlich diskutiert, für welche Bereiche der Arbeit mit Rechtsdatenbanken bereits jetzt relativ einfache Werkzeuge zur Verfügung stehen und wo die Entwicklung von weiteren Werkzeugen ansetzen könnte. Die Kapitel sind so geschrieben, dass sie auch einzeln gelesen werden können, ohne jedoch allzu starke Überschneidungen zuzulassen.La thèse de doctorat «Outils pour des bases de données juridiques» traîte des méthodes linguistiques et informatiques pour comprendre, mémoriser et communiquer des connaissances juridiques. Les sujets traités sont: I. La classification de documents Je discute les classes importantes pour des documents juridiques et je propose une classi-fication automatique qui n’utilise pas seulement le texte du document, mais aussi d’autres critères comme l’adresse du document, l’adresse des liens et le contexte de la recherche de documents. II. L’identification de disciplines en terminographie Je prétends que toute répartition en disciplines et sous-disciplines est par nature relative. Puis je présente deux méthodes pour l’identification de la discipline d’un texte. La pre-mière utilise les termes et la deuxième les textes (définitions et contextes) présents dans la base de données terminographique. III. La présentation dynamique de termes Je discute les problèmes de la présentation de termes traditionnelle pour livres et les avantages d’une présentation adaptée dynamiquement aux besoins concrets de chaque client. Pour prouver la faisabilité de cette nouvelle approche, j’indique la technologie applicable pour chaque fonction et je présente une mise en œuvre dans le système termi-nographique BISTRO (www.eurac.edu/bistro) IV. L’extraction de termes Je discute les caractéristiques des trois méthodes pour l’extraction de termes. Après je montre l’efficacité de la méthode basée sur des exemples lors d’une expérience. L’outil est librement accessible en Internet et peut servir pour l’indexation d’un corpus. V. L’organisation du savoir juridique Je discute exhaustivement tous les systèmes répandus d’organisation du savoir, de mots-clés jusqu’aux ontologies. Ensuite je décrits le procédé et les problèmes concrets pour organiser une base de données juridiques avec une ontologie

    XVIII. Magyar Számítógépes Nyelvészeti Konferencia

    Get PDF

    Computational approaches to semantic change (Volume 6)

    Get PDF
    Semantic change — how the meanings of words change over time — has preoccupied scholars since well before modern linguistics emerged in the late 19th and early 20th century, ushering in a new methodological turn in the study of language change. Compared to changes in sound and grammar, semantic change is the least understood. Ever since, the study of semantic change has progressed steadily, accumulating a vast store of knowledge for over a century, encompassing many languages and language families. Historical linguists also early on realized the potential of computers as research tools, with papers at the very first international conferences in computational linguistics in the 1960s. Such computational studies still tended to be small-scale, method-oriented, and qualitative. However, recent years have witnessed a sea-change in this regard. Big-data empirical quantitative investigations are now coming to the forefront, enabled by enormous advances in storage capability and processing power. Diachronic corpora have grown beyond imagination, defying exploration by traditional manual qualitative methods, and language technology has become increasingly data-driven and semantics-oriented. These developments present a golden opportunity for the empirical study of semantic change over both long and short time spans
    corecore