Search CORE

7 research outputs found

Introducción a la tarea compartida Tweet-Norm 2013: Normalización léxica de tuits en español

Author: Alegria Iñaki
Aranberri Nora
Fresno Víctor
Padró Lluís
Samallo Pablo
San Vicente Iñaki
Turmo Borras Jorge
Zubiaga Arkaitz
Publication venue
Publication date: 01/01/2013
Field of study

En este artículo se presenta una introducción a la tarea Tweet-Norm 2013 : descripción, corpora, anotación, preproceso, sistemas presentados y resultados obtenidos.Postprint (published version

UPCommons. Portal del coneixement obert de la UPC

Agentes inteligentes y web semántica: preprocesamiento de texto de redes sociales

Author: Addati Ángel
Roger Sandra
Publication venue
Publication date: 01/04/2017
Field of study

El proyecto de investigación Agentes Inteligentes y Web Semántica, financiado por la Universidad Nacional del Comahue, tiene como objetivo general la generación de conocimiento especializado en el área de agentes inteligentes y en lo referente a la representación y el uso del conocimiento en sistemas computacionales basados en la Web, es decir, lo que se ha llamado la Web Semántica. En particular, esta línea de investigación tiene como objetivo el desarrollo de una herramienta genérica y expansible para el prepocesamiento de lenguaje natural, para la normalización de texto. Para ello se ha definido su arquitectura básica, brindando la posibilidad de agregar nuevas funcionalidades de forma sencilla.Eje: Agentes y Sistemas Inteligentes.Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Lexical Normalization of Spanish Tweets with Rule-Based Components and Language Models

Author: Cuadros M. (Montse)
Etchegoyhen T. (Thierry)
Ruiz Fabo P. (Pablo)
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 30/03/2014
Field of study

This paper presents a system to normalize Spanish tweets, which uses preprocessing rules, a domain-appropriate edit-distance model, and language models to select correction candidates based on context. The system is an improvement on the tool we submitted to the Tweet-Norm 2013 shared task, and results on the task's test-corpus are above-average. Additionally, we provide a study of the impact for tweet normalization of the different components of the system: rule-based, edit-distance based and statistical

univOAK

Introducción a la tarea compartida Tweet-Norm 2013: Normalización léxica de tuits en español

Author: Alegria Iñaki
Aranberri Nora
Fresno Víctor
Padró Lluís
Samallo Pablo
San Vicente Iñaki
Turmo Borras Jorge
Zubiaga Arkaitz
Publication venue
Publication date: 01/01/2013
Field of study

En este artículo se presenta una introducción a la tarea Tweet-Norm 2013 : descripción, corpora, anotación, preproceso, sistemas presentados y resultados obtenidos

Introducción a la tarea compartida Tweet-Norm 2013: Normalización léxica de tuits en español

Author: Alegria Iñaki
Aranberri Nora
Fresno Víctor
Padró Lluís
Samallo Pablo
San Vicente Iñaki
Turmo Borras Jorge
Zubiaga Arkaitz
Publication venue
Publication date
Field of study

En este artículo se presenta una introducción a la tarea Tweet-Norm 2013 : descripción, corpora, anotación, preproceso, sistemas presentados y resultados obtenidos

RECERCAT

Normalización de texto en español de Argentina

Author: Bracco Alan Gabriel
Publication venue
Publication date: 01/01/2018
Field of study

Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.En la actualidad la cantidad de datos que consume y genera una sola persona es gigantesca. Los datos cada vez son más, ya que cualquiera puede generarlos. Esto trae consigo un aumento en el ruido que hay en esos datos. Es por eso que el texto de las redes sociales se caracteriza por ser ruidoso, lo que es un problema cuando se quiere trabajar sobre ellos. En este trabajo construimos un corpus de tweets en español de Argentina. Recolectamos un conjunto grande de tweets y luego los seleccionamos manualmente para obtener una muestra representativa de los errores típicos de normalización. Luego, definimos criterios claros y explícitos de corrección y los utilizamos para proceder a la anotación manual del corpus. Además, presentamos un sistema de normalización de texto que trabaja sobre tweets. Dado un conjunto de tweets como entrada, el sistema detecta y corrige las palabras que deben ser estandarizadas. Para ello, utiliza una serie de componentes como recursos léxicos, sistemas de reglas y modelos de lenguaje. Finalmente, realizamos experimentos con diferentes corpus, entre ellos el nuestro, y diferentes configuraciones del sistema para entender las ventajas y desventajas de cada uno.Nowadays, the amount of data consumed and generated by only one person is enormous. Data amount keeps growing because anyone can generate it. This brings along an increment of noisy data. That is why social network text is noisy, which is a problem when it is needed to work on it. Here, we built a corpus of tweets in argentinian spanish. We collected a big set of tweets and we selected them manually to obtain a representative sample of common normalization errors. Then, we defined explicit and clear correction criteria and we used it to continue with the manual corpus annotation. Besides, we present a text normalization system that works on tweets. Given a set of tweets as input, the system detects and corrects words that need to be standardized. To do that, it uses a group of components as lexical resources, rule-based systems and language models. Finally, we made some experiments with different corpus, among them, the one we built, and different system configurations to understand each one’s advantages and disadvantages

Repositorio Digital de la Universidad Nacional de Córdoba

WICC 2017 : XIX Workshop de Investigadores en Ciencias de la Computación

Author: Red de Universidades con Carreras en Informática (RedUNCI)
Publication venue: Instituto Tecnológico de Buenos Aires (ITBA)
Publication date: 01/01/2017
Field of study

Actas del XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017), realizado en el Instituto Tecnológico de Buenos Aires (ITBA), el 27 y 28 de abril de 2017.Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual