Search CORE

81 research outputs found

Knowledge Expansion of a Statistical Machine Translation System using Morphological Resources

Author: EHRMANN MAUD
TURCHI MARCO
Publication venue: Centro de Innovación y Desarrollo Tecnológico en Cómputo, Instituto Politécnico Nacional, Mexico
Publication date: 09/08/2011
Field of study

Translation capability of a Phrase-Based Statistical Machine Translation (PBSMT) system mostly depends on parallel data and phrases that are not present in the training data are not correctly translated. This paper describes a method that efficiently expands the existing knowledge of a PBSMT system without adding more parallel data but using external morphological resources. A set of new phrase associations is added to translation and reordering models; each of them corresponds to a morphological variation of the source/target/both phrases of an existing association. New associations are generated using a string similarity score based on morphosyntactic information. We tested our approach on En-Fr and Fr-En translations and results showed improvements of the performance in terms of automatic scores (BLEU and Meteor) and reduction of out-of-vocabulary (OOV) words. We believe that our knowledge expansion framework is generic and could be used to add different types of information to the model.JRC.G.2-Global security and crisis managemen

JRC Publications Repository

What is SemEval evaluating?: A Systematic Analysis of Evaluation Campaigns in NLP

Author: Florea Malina
Freitas Andre
Wysocki Oskar
Publication venue
Publication date: 28/05/2020
Field of study

SemEval is the primary venue in the NLP community for the proposal of new challenges and for the systematic empirical evaluation of NLP systems. This paper provides a systematic quantitative analysis of SemEval aiming to evidence the patterns of the contributions behind SemEval. By understanding the distribution of task types, metrics, architectures, participation and citations over time we aim to answer the question on what is being evaluated by SemEval.Comment: 12 pages, 6 figure

arXiv.org e-Print Archive

The University of Manchester - Institutional Repository

Comparação entre Algoritmos de Aprendizado de Máquina para a Identificação de Floresta Tropical Sazonalmente Seca

Author: Alba Elisiane
Alexandre Marta Laura de Souza
Bezerra Alan Cézar
de Souza Luciana Sandra Bastos
Marchesan Juliana
Silva Emanuel Araújo
Publication venue: 'Instituto de Geociencias - UFRJ'
Publication date: 20/09/2022
Field of study

O objetivo do estudo foi avaliar o potencial dos algoritmos de aprendizado de máquina k-Nearest Neighbor (kNN), Random Forest (RF), Support Vector Machine (SVM) e Artificial Neural Networks (ANN) na identificação das fitofisionomias da Caatinga a partir de imagens OLI/Landsat 8. Para tanto, foi elaborado um arquivo vetorial de treinamento com as amostras dos diferentes padrões dos usos e cobertura da terra, a fim de orientar os algoritmos no processo de classificação. A validação das classificações foi obtida por meio da validação cruzada, do tipo k-fold, com 30 repetições, sendo avaliada a qualidade da classificação a partir dos valores expressos pelo coeficiente Kappa. Para verificar a existência de diferenças significativas entre os algoritmos foi aplicado o teste estatístico de Friedman e Nemenyi. O algoritmo RF apresentou os maiores valores para o coeficiente Kappa, expressando um valor médio de 0,9841. Por outro lado, a ANN demonstrou desempenho inferior aos demais, englobando um valor médio de 0,7551, ocasionado pela confusão espectral na identificação da classe nuvem/sombra com a classe água. Apesar de todos os algoritmos testados apresentarem bons resultados, o algoritmo RF diferiu significativamente dos demais, expressando resultados superiores quando aplicado à identificação de padrões espaciais na Caatinga. Conclui-se que o uso de algoritmos de aprendizagem de máquina é eficiente na identificação de fitofisionomias da Caatinga, com destaque para o RF, o qual englobou melhor a variação dos padrões espectrais dos usos, podendo ser utilizado para estudos posteriores relacionados com a Caatinga.

Portal de Periódicos da UFRJ

Voted Approach for Part of Speech Tagging in Bengali

Author: Bandyopadhyay Sivaji
Ekbal Asif
Hasanuzzaman Md.
Publication venue: City University of Hong Kong
Publication date: 01/01/2009
Field of study

PACLIC 23 / City University of Hong Kong / 3-5 December 200

Waseda University Repository