2 research outputs found

    Desambiguación del sentido y del dominio de las palabras con modelos de probabilidad de máxima entropía

    No full text
    En este artículo se presenta un sistema de aprendizaje supervisado para la desambiguación del sentido de las palabras. Dicho sistema se basa en los modelos de probabilidad condicional de máxima entropía. El conocimiento lingüístico se adquiere a partir de un corpus anotado y se representa en forma de atributos (features). Se han estudiado varios tipos de atributos para un conjunto limitado de palabras del corpus DSO. También se ha estudiado la sustitución de los sentidos de WordNet por etiquetas de dominio. En la actualidad, la implementación del sistema no soporta ninguna técnica de suavizado o preproceso complejo, pero sus resultados son buenos si son comparados, por ejemplo, con los de los sistemas presentados en el SENSEVAL-2In this paper, a supervised learning system of word sense disambiguation is presented. It is based on maximum entropy conditional probability models. This system acquires the linguistic knowledge from an annotated corpus and this knowledge is represented in the form of features. Several types of features has been analyzed for a few words selected from the DSO corpus. Moreover, substituting WordNet senses by domain labels have been studied too. Currently, the system implementation does not support any smoothing technique or complex pre-processing but its accuracy is good when it is compared with, for example, the systems at SENSEVAL-2Este artículo ha sido financiado parcialmente por el Gobierno Español (CICYT) dentro del proyecto número TIC2000-0664-C02-02

    Parallelization of text mining algorithms using Hadoop

    Get PDF
    Este Trabajo Fin de Grado (TFG) tiene como objetivos paralelizar algoritmos de minería de textos para poder permitir su ejecución con una gran cantidad de textos en el menor tiempo posible y con usuarios concurrentes, y la creación de un modelo de datos RDF con las anotaciones generadas por el algoritmo en los documentos. La paralelización se ha realizado siguiendo la filosofía MapReduce. En la fase del mapper se realiza la ejecución del algoritmo de minería de textos sobre el texto de entrada y se genera el modelo RDF asociado a ese texto. La fase del reducer se encarga de unir todos los modelos RDF que hagan referencia a textos de un documento en un único modelo global. El resultado de la ejecución de este programa son pares . Para cumplir con el segundo objetivo se ha desarrollado otra aplicación que une todos los modelos generados por el programa anterior en un solo modelo. El desarrollo del sistema se ha realizado usando Java SE y las tecnologías Apache Hadoop, Gate y Apache Jena. En este trabajo se expondrán un sistema capaz de paralelizar algoritmos de minería de textos desarrollados en GATE y crear el modelo RDF correspondiente a las anotaciones generadas a partir de los textos, las conclusiones alcanzadas a raíz de este trabajo y algunas propuestas de trabajos futuros
    corecore