4 research outputs found
Media monitoring and information extraction for the highly inflected agglutinative language Hungarian
The Europe Media Monitor (EMM) is a fully-automatic system that analyses written online news by gathering articles in over 70 languages and by applying text analysis software for currently 21 languages, without using linguistic tools such as parsers, part-of-speech taggers or morphological analysers. In this paper, we describe the effort of adding to EMM Hungarian text mining tools for news gathering; document categorisation; named entity recognition and classification for persons, organisations and locations; name lemmatisation; quotation recognition; and cross-lingual linking of related news clusters. The major challenge of dealing with the Hungarian language is its high degree of inflection and agglutination. We present several experiments where we apply linguistically light-weight methods to deal with inflection and we propose a method to overcome the challenges. We also present detailed frequency lists of Hungarian person and location name suffixes, as found in real-life news texts. This empirical data can be used to draw further conclusions and to improve existing Named Entity Recognition software. Within EMM, the solutions described here will also be applied to other morphologically complex languages such as those of the Slavic language family. The media monitoring and analysis system EMM is freely accessible online via the web pag
Identificación del sentimiento de entidades en notas periodísticas basado en técnicas de procesamiento de lenguaje natural: una revisión de literatura
El análisis de sentimiento a nivel de entidades sobre notas periodísticas es una tarea de una
complejidad no trivial, lo que genera interés por parte de diferentes sectores, ya que esos tipos
de fuentes de datos causa que los sentimientos identificados no convergen hacia un objetivo
por su longitud extensa y variedad de temas. Sin embargo, no se sabe a ciencia cierta su
dificultad, por lo que el objetivo principal es poder identificar los conocimientos e información
disponible y existente en la actualidad para responder las preguntas formuladas. Por eso, se
define una revisión de literatura tomando en consideración la base de datos Scopus y el empleo
de palabras claves definidas por el método PICOC, donde se obtuvieron en total siete
documentos, cuatro artículos y tres revisiones sistemáticas que evidencian una disponibilidad
de espacio para experimentar y explorar, dado que principalmente se ha trabajado en medios
con mayor cantidad de datos y menor complejidad como las redes sociales o encuestas de
servicios. Esto se reafirmó al revisar los documentos de tesis asociados a este tema, donde
inclusive su demanda ha superado a paradigmas de análisis de sentimientos más clásicos. Es
por ello, que se concluye la necesidad de explotar esta área de conocimientos para poder
satisfacer la demanda de información cada vez más granulada, relevante y compleja,
aprovechando los recursos lingüísticos más óptimos para facilitar las labores que puedan
presentarse.Trabajo de investigació