12 research outputs found

    Détection automatique de phrases parallèles dans un corpus biomédical comparable technique/simplifié

    Get PDF
    International audienceAutomatic detection of parallel sentences in comparable biomedical corpora Parallel sentences provide identical or semantically similar information which gives important clues on language. When sentences vary by their register (like expert vs non-expert), they can be exploited for the automatic text simplification. The aim of text simplification is to improve the understanding of texts. For instance, in the biomedical field, simplification may permit patients to understand better medical texts in relation to their health. Yet, there is currently very few resources for the simplification of French texts. We propose to exploit comparable corpora, which are distinguished by their technicality, to detect parallel sentences and to align them. The reference data are created manually and show 0.76 inter-annotator agreement. We perform experiments on balanced and imbalanced data. The results on balanced data reach up to 0.94 F-measure. On imbalanced data, the results are lower (up to 0.92 F-measure) but remain competitive when using classification models trained on balanced data.Les phrases parallèles contiennent des informations identiques ou très proches sémantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont différenciées par leur registre (comme expert vs. non-expert), elles peuvent être exploitées pour la simplification automatique de textes. Le but de la simplification automatique est d'améliorer la compréhension de textes. Par exemple, dans le domaine biomédical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs à leur santé. Il existe cependant très peu de ressources pour la simplification en français. Nous proposons donc d'exploiter des corpus com-parables, différenciés par leur technicité, pour y détecter des phrases parallèles et les aligner. Les données de référence sont créées manuellement et montrent un accord inter-annotateur de 0,76. Nous expérimentons sur des données équilibrées et déséquilibrées. La F-mesure sur les données équilibrées atteint jusqu'à 0,94. Sur les données déséquilibrées, les résultats sont plus faibles (jusqu'à 0,92 de F-mesure) mais restent compétitifs lorsque les modèles sont entraînés sur les données équilibrées

    Automatic Construction of Cross-lingual Networks of Concepts from the Hong Kong SAR Police Department

    Get PDF
    Abstract. The tragic event of September 11 has prompted the rapid growth of attention of national security and criminal analysis. In the national security world, very large volumes of data and information are generated and gathered. Much of this data and information written in different languages and stored in different locations may be seemingly unconnected. Therefore, cross-lingual semantic interoperability is a major challenge to generate an overview of this disparate data and information so that it can be analysed, searched. The traditional information retrieval (IR) approaches normally require a document to share some keywords with the query. In reality, the users may use some keywords that are different from what used in the documents. There are then two different term spaces, one for the users, and another for the documents. The problem can be viewed as the creation of a thesaurus. The creation of such relationships would allow the system to match queries with relevant documents, even though they contain different terms. Apart from this, terrorists and criminals may communicate through letters, e-mails and faxes in languages other than English. The translation ambiguity significantly exacerbates the retrieval problem. To facilitate cross-lingual information retrieval, a corpusbased approach uses the term co-occurrence statistics in parallel or comparable corpora to construct a statistical translation model to cross the language boundary. However, collecting parallel corpora between European language and Oriental language is not an easy task due to the unique linguistics and grammar structures of oriental languages. In this paper, the text-based approach to align English/Chinese Hong Kong Police press release documents from the Web is first presented. This article then reports an algorithmic approach to generate a robust knowledge base based on statistical correlation analysis of the semantics (knowledge) embedded in the bilingual press release corpus. The research output consisted of a thesaurus-like, semantic network knowledge base, which can aid in semantics-based cross-lingual information management and retrieval

    Category tree integration by exploiting hierarchical structure.

    Get PDF
    Lin, Jianfeng.Thesis (M.Phil.)--Chinese University of Hong Kong, 2007.Includes bibliographical references (leaves 79-83).Abstracts in English and Chinese.Abstract --- p.i内容摘要 --- p.iiAcknowledgement --- p.iiiTable of Contents --- p.ivList of Figures --- p.viList of Tables --- p.viiChapter Chapter 1. --- Introduction --- p.1Chapter Chapter 2. --- Related Work --- p.6Chapter 2.1. --- Ontology Integration --- p.7Chapter 2.2. --- Schema Matching --- p.10Chapter 2.3. --- Taxonomy Integration as Text Categorization --- p.13Chapter 2.4. --- Cross-lingual Text Categorization & Cross-lingual Information Retrieval --- p.15Chapter Chapter 3. --- Problem Definition --- p.17Chapter 3.1. --- Mono-lingual Category Tree Integration --- p.17Chapter 3.2. --- Integration Operators --- p.19Chapter 3.3. --- Cross-lingual Category Tree Integration --- p.21Chapter Chapter 4. --- Mono-lingual Category Tree Integration Techniques --- p.23Chapter 4.1. --- Category Relationships --- p.23Chapter 4.2. --- Decision Rules --- p.27Chapter 4.3. --- Mapping Algorithm --- p.38Chapter Chapter 5. --- Experiment of Mono-lingual Category Tree Integration --- p.42Chapter 5.1. --- Dataset --- p.42Chapter 5.2. --- Automated Text Classifier --- p.43Chapter 5.3. --- Evaluation Metrics --- p.46Chapter 5.3.1. --- Integration Accuracy --- p.47Chapter 5.3.2. --- Precision and Recall and F1 value of the Three Operators --- p.48Chapter 5.3.3. --- "Precision and Recalls of ""Split""" --- p.48Chapter 5.4. --- Parameter Turning --- p.49Chapter 5.5. --- Experiments Results --- p.55Chapter Chapter 6. --- Cross-lingual Category Tree Integration --- p.60Chapter 6.1. --- Parallel Corpus --- p.61Chapter 6.2. --- Cross-lingual Concept Space Construction --- p.65Chapter 6.2.1. --- Phase Extraction --- p.65Chapter 6.2.2. --- Co-occurrence analysis --- p.65Chapter 6.2.3. --- Associate Constraint Network for Concept Generation --- p.67Chapter 6.3. --- Document Translation --- p.69Chapter 6.4. --- Experiment Setting --- p.72Chapter 6.5. --- Experiment Results --- p.73Chapter Chapter 7. --- Conclusion and Future Work --- p.77Reference --- p.7

    GENRE ANALYSIS AND MACHINE TRANSLATION: A COMPARISON BETWEEN ITALIAN AND CHINESE TRADE FAIR PROMOTIONAL BROCHURES

    Get PDF
    Abstract Il presente elaborato offre una panoramica sull'uso della traduzione automatica e del concetto di genere testuale nel quadro più generico della comunicazione interculturale d'impresa. Negli ultimi decenni, il campo della comunicazione interculturale d’impresa ha ricevuto una crescente attenzione dal momento che sempre più aziende interagiscono a livello globale, e in questo contesto la traduzione automatica si è posta come un’interessante soluzione per abbattere le barriere linguistiche e ridurre i tempi e i costi di traduzione. Allo stesso tempo, in ambito accademico, la ricerca si è occupata dello studio dei generi testuali, ma solo alcuni generi per poche combinazioni linguistiche sono stati analizzati in una prospettiva cross-culturale. La parte pratica presenta il confronto tra brochure per la promozione di fiere italiane e cinesi nel settore alimentare. Sulla base di una traduzione automatica e di una manuale della brochure di una fiera italiana, i due testi d'arrivo vengono infine confrontati. I risultati mostrano che la traduzione automatica costituisce di certo una risorsa per il traduttore. Allo stesso tempo però per sfruttare la traduzione automatica sono necessarie conoscenze legate alla comunità discorsiva e alle culture coinvolte. Nonostante il genere delle brochure promozionali mostri una certa sovrapposizione tra le due culture, è possibile infatti riscontrare differenze a livello di scopo e stile di comunicazione che, se trascurate, potrebbero inficiare il risultato finale

    Μηχανική Μάθηση στην Επεξεργασία Φυσικής Γλώσσας

    Get PDF
    Η διατριβή εξετάζει την χρήση τεχνικών μηχανικής μάθησης σε διάφορα στάδια της επεξεργασίας φυσικής γλώσσας, κυρίως για σκοπούς εξαγωγής πληροφορίας από κείμενα. Στόχος είναι τόσο η βελτίωση της προσαρμοστικότητας των συστημάτων εξαγωγής πληροφορίας σε νέες θεματικές περιοχές (ή ακόμα και γλώσσες), όσο και η επίτευξη καλύτερης απόδοσης χρησιμοποιώντας όσο το δυνατό λιγότερους πόρους (τόσο γλωσσικούς όσο και ανθρώπινους). Η διατριβή κινείται σε δύο κύριους άξονες: α) την έρευνα και αποτίμηση υπαρχόντων αλγορίθμων μηχανικής μάθησης κυρίως στα στάδια της προ-επεξεργασίας (όπως η αναγνώριση μερών του λόγου) και της αναγνώρισης ονομάτων οντοτήτων, και β) τη δημιουργία ενός νέου αλγορίθμου μηχανικής μάθησης και αποτίμησής του, τόσο σε συνθετικά δεδομένα, όσο και σε πραγματικά δεδομένα από το στάδιο της εξαγωγής σχέσεων μεταξύ ονομάτων οντοτήτων. Ο νέος αλγόριθμος μηχανικής μάθησης ανήκει στην κατηγορία της επαγωγικής εξαγωγής γραμματικών, και εξάγει γραμματικές ανεξάρτητες από τα συμφραζόμενα χρησιμοποιώντας μόνο θετικά παραδείγματα.This thesis examines the use of machine learning techniques in various tasks of natural language processing, mainly for the task of information extraction from texts. The objectives are the improvement of adaptability of information extraction systems to new thematic domains (or even languages), and the improvement of their performance using as fewer resources (either linguistic or human) as possible. This thesis has examined two main axes: a) the research and assessment of existing algorithms of machine learning mainly in the stages of linguistic pre-processing (such as part of speech tagging) and named-entity recognition, and b) the creation of a new machine learning algorithm and its assessment on synthetic data, as well as in real world data from the task of relation extraction between named entities. This new algorithm belongs to the category of inductive grammar learning, and can infer context free grammars from positive examples only

    Ontology Localization

    Get PDF
    Nuestra meta principal en esta tesis es proponer una solución para construir una ontología multilingüe, a través de la localización automática de una ontología. La noción de localización viene del área de Desarrollo de Software que hace referencia a la adaptación de un producto de software a un ambiente no nativo. En la Ingeniería Ontológica, la localización de ontologías podría ser considerada como un subtipo de la localización de software en el cual el producto es un modelo compartido de un dominio particular, por ejemplo, una ontología, a ser usada por una cierta aplicación. En concreto, nuestro trabajo introduce una nueva propuesta para el problema de multilingüismo, describiendo los métodos, técnicas y herramientas para la localización de recursos ontológicos y cómo el multilingüismo puede ser representado en las ontologías. No es la meta de este trabajo apoyar una única propuesta para la localización de ontologías, sino más bien mostrar la variedad de métodos y técnicas que pueden ser readaptadas de otras áreas de conocimiento para reducir el costo y esfuerzo que significa enriquecer una ontología con información multilingüe. Estamos convencidos de que no hay un único método para la localización de ontologías. Sin embargo, nos concentramos en soluciones automáticas para la localización de estos recursos. La propuesta presentada en esta tesis provee una cobertura global de la actividad de localización para los profesionales ontológicos. En particular, este trabajo ofrece una explicación formal de nuestro proceso general de localización, definiendo las entradas, salidas, y los principales pasos identificados. Además, en la propuesta consideramos algunas dimensiones para localizar una ontología. Estas dimensiones nos permiten establecer una clasificación de técnicas de traducción basadas en métodos tomados de la disciplina de traducción por máquina. Para facilitar el análisis de estas técnicas de traducción, introducimos una estructura de evaluación que cubre sus aspectos principales. Finalmente, ofrecemos una vista intuitiva de todo el ciclo de vida de la localización de ontologías y esbozamos nuestro acercamiento para la definición de una arquitectura de sistema que soporte esta actividad. El modelo propuesto comprende los componentes del sistema, las propiedades visibles de esos componentes, las relaciones entre ellos, y provee además, una base desde la cual sistemas de localización de ontologías pueden ser desarrollados. Las principales contribuciones de este trabajo se resumen como sigue: - Una caracterización y definición de los problemas de localización de ontologías, basado en problemas encontrados en áreas relacionadas. La caracterización propuesta tiene en cuenta tres problemas diferentes de la localización: traducción, gestión de la información, y representación de la información multilingüe. - Una metodología prescriptiva para soportar la actividad de localización de ontologías, basada en las metodologías de localización usadas en Ingeniería del Software e Ingeniería del Conocimiento, tan general como es posible, tal que ésta pueda cubrir un amplio rango de escenarios. - Una clasificación de las técnicas de localización de ontologías, que puede servir para comparar (analíticamente) diferentes sistemas de localización de ontologías, así como también para diseñar nuevos sistemas, tomando ventaja de las soluciones del estado del arte. - Un método integrado para construir sistemas de localización de ontologías en un entorno distribuido y colaborativo, que tenga en cuenta los métodos y técnicas más apropiadas, dependiendo de: i) el dominio de la ontología a ser localizada, y ii) la cantidad de información lingüística requerida para la ontología final. - Un componente modular para soportar el almacenamiento de la información multilingüe asociada a cada término de la ontología. Nuestra propuesta sigue la tendencia actual en la integración de la información multilingüe en las ontologías que sugiere que el conocimiento de la ontología y la información lingüística (multilingüe) estén separados y sean independientes. - Un modelo basado en flujos de trabajo colaborativos para la representación del proceso normalmente seguido en diferentes organizaciones, para coordinar la actividad de localización en diferentes lenguajes naturales. - Una infraestructura integrada implementada dentro del NeOn Toolkit por medio de un conjunto de plug-ins y extensiones que soporten el proceso colaborativo de localización de ontologías
    corecore