81 research outputs found

    Knowledge Expansion of a Statistical Machine Translation System using Morphological Resources

    Get PDF
    Translation capability of a Phrase-Based Statistical Machine Translation (PBSMT) system mostly depends on parallel data and phrases that are not present in the training data are not correctly translated. This paper describes a method that efficiently expands the existing knowledge of a PBSMT system without adding more parallel data but using external morphological resources. A set of new phrase associations is added to translation and reordering models; each of them corresponds to a morphological variation of the source/target/both phrases of an existing association. New associations are generated using a string similarity score based on morphosyntactic information. We tested our approach on En-Fr and Fr-En translations and results showed improvements of the performance in terms of automatic scores (BLEU and Meteor) and reduction of out-of-vocabulary (OOV) words. We believe that our knowledge expansion framework is generic and could be used to add different types of information to the model.JRC.G.2-Global security and crisis managemen

    What is SemEval evaluating?: A Systematic Analysis of Evaluation Campaigns in NLP

    Get PDF
    SemEval is the primary venue in the NLP community for the proposal of new challenges and for the systematic empirical evaluation of NLP systems. This paper provides a systematic quantitative analysis of SemEval aiming to evidence the patterns of the contributions behind SemEval. By understanding the distribution of task types, metrics, architectures, participation and citations over time we aim to answer the question on what is being evaluated by SemEval.Comment: 12 pages, 6 figure

    Comparação entre Algoritmos de Aprendizado de Máquina para a Identificação de Floresta Tropical Sazonalmente Seca

    Get PDF
    O objetivo do estudo foi avaliar o potencial dos algoritmos de aprendizado de máquina k-Nearest Neighbor (kNN), Random Forest (RF), Support Vector Machine (SVM) e Artificial Neural Networks (ANN) na identificação das fitofisionomias da Caatinga a partir de imagens OLI/Landsat 8. Para tanto, foi elaborado um arquivo vetorial de treinamento com as amostras dos diferentes padrões dos usos e cobertura da terra, a fim de orientar os algoritmos no processo de classificação. A validação das classificações foi obtida por meio da validação cruzada, do tipo k-fold, com 30 repetições, sendo avaliada a qualidade da classificação a partir dos valores expressos pelo coeficiente Kappa. Para verificar a existência de diferenças significativas entre os algoritmos foi aplicado o teste estatístico de Friedman e Nemenyi. O algoritmo RF apresentou os maiores valores para o coeficiente Kappa, expressando um valor médio de 0,9841. Por outro lado, a ANN demonstrou desempenho inferior aos demais, englobando um valor médio de 0,7551, ocasionado pela confusão espectral na identificação da classe nuvem/sombra com a classe água. Apesar de todos os algoritmos testados apresentarem bons resultados, o algoritmo RF diferiu significativamente dos demais, expressando resultados superiores quando aplicado à identificação de padrões espaciais na Caatinga. Conclui-se que o uso de algoritmos de aprendizagem de máquina é eficiente na identificação de fitofisionomias da Caatinga, com destaque para o RF, o qual englobou melhor a variação dos padrões espectrais dos usos, podendo ser utilizado para estudos posteriores relacionados com a Caatinga.

    Voted Approach for Part of Speech Tagging in Bengali

    Get PDF
    PACLIC 23 / City University of Hong Kong / 3-5 December 200
    corecore