4 research outputs found

    Media monitoring and information extraction for the highly inflected agglutinative language Hungarian

    Get PDF
    The Europe Media Monitor (EMM) is a fully-automatic system that analyses written online news by gathering articles in over 70 languages and by applying text analysis software for currently 21 languages, without using linguistic tools such as parsers, part-of-speech taggers or morphological analysers. In this paper, we describe the effort of adding to EMM Hungarian text mining tools for news gathering; document categorisation; named entity recognition and classification for persons, organisations and locations; name lemmatisation; quotation recognition; and cross-lingual linking of related news clusters. The major challenge of dealing with the Hungarian language is its high degree of inflection and agglutination. We present several experiments where we apply linguistically light-weight methods to deal with inflection and we propose a method to overcome the challenges. We also present detailed frequency lists of Hungarian person and location name suffixes, as found in real-life news texts. This empirical data can be used to draw further conclusions and to improve existing Named Entity Recognition software. Within EMM, the solutions described here will also be applied to other morphologically complex languages such as those of the Slavic language family. The media monitoring and analysis system EMM is freely accessible online via the web pag

    Identificación del sentimiento de entidades en notas periodísticas basado en técnicas de procesamiento de lenguaje natural: una revisión de literatura

    Get PDF
    El análisis de sentimiento a nivel de entidades sobre notas periodísticas es una tarea de una complejidad no trivial, lo que genera interés por parte de diferentes sectores, ya que esos tipos de fuentes de datos causa que los sentimientos identificados no convergen hacia un objetivo por su longitud extensa y variedad de temas. Sin embargo, no se sabe a ciencia cierta su dificultad, por lo que el objetivo principal es poder identificar los conocimientos e información disponible y existente en la actualidad para responder las preguntas formuladas. Por eso, se define una revisión de literatura tomando en consideración la base de datos Scopus y el empleo de palabras claves definidas por el método PICOC, donde se obtuvieron en total siete documentos, cuatro artículos y tres revisiones sistemáticas que evidencian una disponibilidad de espacio para experimentar y explorar, dado que principalmente se ha trabajado en medios con mayor cantidad de datos y menor complejidad como las redes sociales o encuestas de servicios. Esto se reafirmó al revisar los documentos de tesis asociados a este tema, donde inclusive su demanda ha superado a paradigmas de análisis de sentimientos más clásicos. Es por ello, que se concluye la necesidad de explotar esta área de conocimientos para poder satisfacer la demanda de información cada vez más granulada, relevante y compleja, aprovechando los recursos lingüísticos más óptimos para facilitar las labores que puedan presentarse.Trabajo de investigació
    corecore