22 research outputs found
Arabic named entity recognition
En esta tesis doctoral se describen las investigaciones realizadas con el objetivo de determinar
las mejores tecnicas para construir un Reconocedor de Entidades Nombradas
en Arabe. Tal sistema tendria la habilidad de identificar y clasificar las entidades
nombradas que se encuentran en un texto arabe de dominio abierto.
La tarea de Reconocimiento de Entidades Nombradas (REN) ayuda a otras tareas de
Procesamiento del Lenguaje Natural (por ejemplo, la Recuperacion de Informacion, la
Busqueda de Respuestas, la Traduccion Automatica, etc.) a lograr mejores resultados
gracias al enriquecimiento que a~nade al texto. En la literatura existen diversos trabajos
que investigan la tarea de REN para un idioma especifico o desde una perspectiva
independiente del lenguaje. Sin embargo, hasta el momento, se han publicado muy
pocos trabajos que estudien dicha tarea para el arabe.
El arabe tiene una ortografia especial y una morfologia compleja, estos aspectos aportan
nuevos desafios para la investigacion en la tarea de REN. Una investigacion completa
del REN para elarabe no solo aportaria las tecnicas necesarias para conseguir
un alto rendimiento, sino que tambien proporcionara un analisis de los errores y una
discusion sobre los resultados que benefician a la comunidad de investigadores del
REN. El objetivo principal de esta tesis es satisfacer esa necesidad. Para ello hemos:
1. Elaborado un estudio de los diferentes aspectos del arabe relacionados con dicha
tarea;
2. Analizado el estado del arte del REN;
3. Llevado a cabo una comparativa de los resultados obtenidos por diferentes
tecnicas de aprendizaje automatico;
4. Desarrollado un metodo basado en la combinacion de diferentes clasificadores,
donde cada clasificador trata con una sola clase de entidades nombradas y emplea
el conjunto de caracteristicas y la tecnica de aprendizaje automatico mas
adecuados para la clase de entidades nombradas en cuestion.
Nuestros experimentos han sido evaluados sobre nueve conjuntos de test.Benajiba, Y. (2009). Arabic named entity recognition [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/8318Palanci
POS tagging in Amazigh using support vector machines and conditional random fields
The aim of this paper is to present the first Amazighe POS tagger.
Very few linguistic resources have been developed so far for Amazighe and we
believe that the development of a POS tagger tool is the first step needed for
automatic text processing. The used data have been manually collected and
annotated. We have used state-of-art supervised machine learning approaches to
build our POS-tagging models. The obtained accuracy achieved 92.58% and we
have used the 10-fold technique to further validate our results. © Springer-Verlag Berlin Heidelberg 2011We would like to thank all IRCAM researchers for their
valuable assistance. The work of the third author was funded by the MICINN research
project TEXT-ENTERPRISE 2.0 TIN2009-13391-C04-03 (Plan I+D+i).Outahajala, M.; Benajiba, Y.; Rosso, P.; Zenkouar, L. (2011). POS tagging in Amazigh using support vector machines and conditional random fields. En Natural Language Processing and Information Systems. Springer Verlag (Germany). 6716:238-241. https://doi.org/10.1007/978-3-642-22327-3_28S238241671
L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation
[FR] L’objectif de cet article est de présenter le premier étiqueteur grammatical amazighe. Très
peu de ressources ont été développées pour l’amazighe et nous croyons que le
développement d’un outil d’étiquetage grammatical est une étape préalable au traitement
automatique de textes. Afin d'atteindre cet objectif, nous avons formé deux modèles de
classification de séquences en utilisant les SVMs, séparateurs à vaste marge (Support Vector
Machines) et les CRFs, champs markoviens conditionnels (Conditional Random Fields) en
utilisant une phase de segmentation. Nous avons utilisé la technique de 10 fois la validation
croisée pour évaluer notre approche. Les résultats montrent que les performances des SVMs
et des CRFs sont très comparables. Dans l'ensemble, les SVMs ont légèrement dépassé les
CRFs au niveau des échantillons (92,58% contre 92,14%) et la moyenne de précision des CRFs
dépasse celle des SVMs (89,48% contre 89,29%). Ces résultats sont très prometteurs étant
donné que nous avons utilisé un corpus de seulement ~ 20k mots.[EN] The aim of this paper is to present the first amazigh POS tagger. Very few linguistic resources
have been developed so far for amazigh and we believe that the development of a POS tagger
tool is the first step needed for automatic text processing. In order to achieve this endeavor,
we have trained two sequence classification models using Support Vector Machines (SVMs)
and Conditional Random Fields (CRFs) after using a tokenization step. We have used the 10-
fold technique to evaluate our approach. Results show that the performance of SVMs and
CRFs are very comparable. Across the board, SVMs outperformed CRFs on the fold level
(92.58% vs. 92.14%) and CRFs outperformed SVMs on the 10 folds average level (89.48% vs.
89.29%). These results are very promising considering that we have used a corpus of only ~20k
tokens.Les travaux du troisième auteur ont été financés par le projet de recherche EU FP7 Marie Curie PEOPLE-IRSES 269180 WiQ-Ei, MICINN TEXT-ENTERPRISE 2.0 TIN2009-13391-C04-03 (Plan I+D+i), VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems.Outahajala, M.; Benajiba, Y.; Rosso, P.; Zenkouar, L. (2012). L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation. E-TI : la revue électronique des technologies de l'information. 6:48-61. http://hdl.handle.net/10251/47570S4861
From Instructions to Constraints: Language Model Alignment with Automatic Constraint Verification
User alignment is crucial for adapting general-purpose language models (LMs)
to downstream tasks, but human annotations are often not available for all
types of instructions, especially those with customized constraints. We observe
that user instructions typically contain constraints. While assessing response
quality in terms of the whole instruction is often costly, efficiently
evaluating the satisfaction rate of constraints is feasible. We investigate
common constraints in NLP tasks, categorize them into three classes based on
the types of their arguments, and propose a unified framework, ACT (Aligning to
ConsTraints), to automatically produce supervision signals for user alignment
with constraints. Specifically, ACT uses constraint verifiers, which are
typically easy to implement in practice, to compute constraint satisfaction
rate (CSR) of each response. It samples multiple responses for each prompt and
collect preference labels based on their CSR automatically. Subsequently, ACT
adapts the LM to the target task through a ranking-based learning process.
Experiments on fine-grained entity typing, abstractive summarization, and
temporal question answering show that ACT is able to enhance LMs' capability to
adhere to different classes of constraints, thereby improving task performance.
Further experiments show that the constraint-following capabilities are
transferable
Reconocimiento de entidades nombradas en textos árabes
Tesis doctoral en Informática realizada por Yassine Benajiba y dirigida por el doctor Paolo Rosso (Univ. Politécnica de Valencia). El acto de defensa de tesis tuvo lugar en Valencia en Mayo de 2009 ante el tribunal formado por los doctores Felisa Verdejo (UNED), Mona Diab (Columbia Univ.), Imed Zitouni (IBM T.J. Watson Research Center), Horacio RodrÃguez (Univ. Politécnica de Cataluña) y Encarna Segarra (Univ. Politécnica de Valencia). La calificación obtenida fue Sobresaliente Cum Laude.PhD thesis in Computer Science written by Yassine Benajiba under the supervision of Dr Paolo Rosso (Univ. Politécnica de Valencia). The author was examined in May 2009 in Valencia by the committee formed by Felisa Verdejo (UNED), Mona Diab (Columbia Univ.), Imed Zitouni (IBM T.J. Watson Research Center), Horacio RodrÃguez (Univ. Politécnica de Cataluña) and Encarna Segarra (Univ. Politécnica de Valencia). The grade obtained was Cum Laude.This PhD thesis was supported by an AECI scholarship