1 research outputs found

    Multi-domain Cross-lingual Information Extraction from Clean and Noisy Texts

    No full text
    Abstract. We have created a human-annotated, multi-event, cross-lingual corpus of equivalent summaries in Spanish and English to investigate cross-lingual information extraction. The corpus contains, in addition to pairs of equivalent non-translated summaries, automatic translations of each summary produced using an available translation tool. We have developed trainable information extraction systems per language and have applied them to both original summaries and their automatic translations obtaining encouraging results. Resumo. Apresentamos um estudo de extração de informações de um corpus bilíngüe paralelo em espanhol e inglês. O corpus está formado por pares de resumos curtos de eventos em três domínios de aplicação. Temos desenvolvido sistemas de extração de informaçoes para as duas línguas estudadas e avaliado o desempenho do sistema em varias experiências tanto monolíngües como translíngües. Apresentamos uma análise dos resultados obtidos. 1
    corecore