7 research outputs found

    Introducci贸n a la tarea compartida Tweet-Norm 2013: Normalizaci贸n l茅xica de tuits en espa帽ol

    Get PDF
    En este art铆culo se presenta una introducci贸n a la tarea Tweet-Norm 2013 : descripci贸n, corpora, anotaci贸n, preproceso, sistemas presentados y resultados obtenidos.Postprint (published version

    Agentes inteligentes y web sem谩ntica: preprocesamiento de texto de redes sociales

    Get PDF
    El proyecto de investigaci贸n Agentes Inteligentes y Web Sem谩ntica, financiado por la Universidad Nacional del Comahue, tiene como objetivo general la generaci贸n de conocimiento especializado en el 谩rea de agentes inteligentes y en lo referente a la representaci贸n y el uso del conocimiento en sistemas computacionales basados en la Web, es decir, lo que se ha llamado la Web Sem谩ntica. En particular, esta l铆nea de investigaci贸n tiene como objetivo el desarrollo de una herramienta gen茅rica y expansible para el prepocesamiento de lenguaje natural, para la normalizaci贸n de texto. Para ello se ha definido su arquitectura b谩sica, brindando la posibilidad de agregar nuevas funcionalidades de forma sencilla.Eje: Agentes y Sistemas Inteligentes.Red de Universidades con Carreras en Inform谩tica (RedUNCI

    Lexical Normalization of Spanish Tweets with Rule-Based Components and Language Models

    Get PDF
    This paper presents a system to normalize Spanish tweets, which uses preprocessing rules, a domain-appropriate edit-distance model, and language models to select correction candidates based on context. The system is an improvement on the tool we submitted to the Tweet-Norm 2013 shared task, and results on the task's test-corpus are above-average. Additionally, we provide a study of the impact for tweet normalization of the different components of the system: rule-based, edit-distance based and statistical

    Introducci贸n a la tarea compartida Tweet-Norm 2013: Normalizaci贸n l茅xica de tuits en espa帽ol

    No full text
    En este art铆culo se presenta una introducci贸n a la tarea Tweet-Norm 2013 : descripci贸n, corpora, anotaci贸n, preproceso, sistemas presentados y resultados obtenidos

    Introducci贸n a la tarea compartida Tweet-Norm 2013: Normalizaci贸n l茅xica de tuits en espa帽ol

    No full text
    En este art铆culo se presenta una introducci贸n a la tarea Tweet-Norm 2013 : descripci贸n, corpora, anotaci贸n, preproceso, sistemas presentados y resultados obtenidos

    Normalizaci贸n de texto en espa帽ol de Argentina

    Get PDF
    Tesis (Lic. en Cs. de la Computaci贸n)--Universidad Nacional de C贸rdoba, Facultad de Matem谩tica, Astronom铆a, F铆sica y Computaci贸n, 2018.En la actualidad la cantidad de datos que consume y genera una sola persona es gigantesca. Los datos cada vez son m谩s, ya que cualquiera puede generarlos. Esto trae consigo un aumento en el ruido que hay en esos datos. Es por eso que el texto de las redes sociales se caracteriza por ser ruidoso, lo que es un problema cuando se quiere trabajar sobre ellos. En este trabajo construimos un corpus de tweets en espa帽ol de Argentina. Recolectamos un conjunto grande de tweets y luego los seleccionamos manualmente para obtener una muestra representativa de los errores t铆picos de normalizaci贸n. Luego, definimos criterios claros y expl铆citos de correcci贸n y los utilizamos para proceder a la anotaci贸n manual del corpus. Adem谩s, presentamos un sistema de normalizaci贸n de texto que trabaja sobre tweets. Dado un conjunto de tweets como entrada, el sistema detecta y corrige las palabras que deben ser estandarizadas. Para ello, utiliza una serie de componentes como recursos l茅xicos, sistemas de reglas y modelos de lenguaje. Finalmente, realizamos experimentos con diferentes corpus, entre ellos el nuestro, y diferentes configuraciones del sistema para entender las ventajas y desventajas de cada uno.Nowadays, the amount of data consumed and generated by only one person is enormous. Data amount keeps growing because anyone can generate it. This brings along an increment of noisy data. That is why social network text is noisy, which is a problem when it is needed to work on it. Here, we built a corpus of tweets in argentinian spanish. We collected a big set of tweets and we selected them manually to obtain a representative sample of common normalization errors. Then, we defined explicit and clear correction criteria and we used it to continue with the manual corpus annotation. Besides, we present a text normalization system that works on tweets. Given a set of tweets as input, the system detects and corrects words that need to be standardized. To do that, it uses a group of components as lexical resources, rule-based systems and language models. Finally, we made some experiments with different corpus, among them, the one we built, and different system configurations to understand each one鈥檚 advantages and disadvantages

    WICC 2017 : XIX Workshop de Investigadores en Ciencias de la Computaci贸n

    Get PDF
    Actas del XIX Workshop de Investigadores en Ciencias de la Computaci贸n (WICC 2017), realizado en el Instituto Tecnol贸gico de Buenos Aires (ITBA), el 27 y 28 de abril de 2017.Red de Universidades con Carreras en Inform谩tica (RedUNCI
    corecore