3 research outputs found

    Matching Meaning for Cross-Language Information Retrieval

    Get PDF
    Cross-language information retrieval concerns the problem of finding information in one language in response to search requests expressed in another language. The explosive growth of the World Wide Web, with access to information in many languages, has provided a substantial impetus for research on this important problem. In recent years, significant advances in cross-language retrieval effectiveness have resulted from the application of statistical techniques to estimate accurate translation probabilities for individual terms from automated analysis of human-prepared translations. With few exceptions, however, those results have been obtained by applying evidence about the meaning of terms to translation in one direction at a time (e.g., by translating the queries into the document language). This dissertation introduces a more general framework for the use of translation probability in cross-language information retrieval based on the notion that information retrieval is dependent fundamentally upon matching what the searcher means with what the document author meant. The perspective yields a simple computational formulation that provides a natural way of combining what have been known traditionally as query and document translation. When combined with the use of synonym sets as a computational model of meaning, cross-language search results are obtained using English queries that approximate a strong monolingual baseline for both French and Chinese documents. Two well-known techniques (structured queries and probabilistic structured queries) are also shown to be a special case of this model under restrictive assumptions

    Diseño e implementación de un sistema de clasificación afectiva de opinión y relevancia

    Get PDF
    Dentro de una sociedad en la que cada vez hay más información y el acceso a la misma está cada vez más extendido, la capacidad para trabajar con ella se ha vuelto una tarea imprescindible. Parte del hecho de poder trabajar de forma eficiente con esta información pasa por ser capaces de organizarla o clasificarla adecuadamente, en especial teniendo en cuenta el incremento en volumen que ha experimentado en formato electrónico. Esta reciente disponibilidad de información digital ha permitido que la clasificación automática sea algo abordable y que por lo tanto se hayan podido desarrollar diversas técnicas para su implementación. La clasificación automática, sobre todo de cara a detectar la relevancia de la información, ha sido un área de investigación muy estudiada durante los últimos años aunque es la clasificación afectiva de textos la que ha cobrado más importancia recientemente. El objetivo de este Proyecto de Fin de Carrera es investigar y desarrollar un prototipo de clasificación de relevancia y de clasificación de opinión, evaluado sobre el corpus de textos obtenido del foro NTCIR-6. El análisis de opinión consiste en determinar si un documento dado expresa o no una opinión mientras que el análisis de relevancia se centra en determinar si un documento es relevante a un tema predeterminado, y por tanto dando una medida de fiabilidad de la opinión que expresa. NTCIR son una serie de talleres de evaluación diseñados para mejorar la investigación sobre tecnologías de acceso a la información. En ellos se plantean distintas tareas sobre diversas áreas dentro del acceso a la información y proporcionan los corpus necesarios para llevarlas a cabo. Este proyecto se basa en la tarea de análisis multilingüe de opinión (MOAT) de NTCIR-6. Esta tarea proporciona noticias en inglés, japonés, chino tradicional y chino simplificado, aunque el proyecto se centrará únicamente en el análisis del corpus en inglés. A partir de estos datos se diseñará e implementará un sistema de clasificación afectiva de opinión y relevancia, pudiendo comprobar las dificultades asociadas a cada uno de los análisis según la naturaleza de los mismos.Ingeniería de Telecomunicació

    The POSTECH Statistical Machine Translation Systems for NTCIR-7 Patent Translation Task

    No full text
    1
    corecore