3 research outputs found

    Desenvolvimento de aplicações em perl com freeLing 3

    Get PDF
    O FreeLing é uma ferramenta para processamento de linguagem natural, em especial para análise morfossintáctica e cálculo de árvores de dependências. Embora a escolha de implementação em C++ seja relevante pela eficiência, torna complicado o desenvolvimento de pequenas ferramentas. Além disso, a interface Perl disponibilizada com o próprio FreeLing não é mais que um mapeamento directo da API C++ para Perl, o que não é o mais adequado. Este artigo apresenta as decisões de implementação do módulo Perl FL3, e discute como esta interface torna simples a escrita de pequenos processadores de linguagem natural em Perl

    Processing Annotated TMX Parallel Corpora

    Get PDF
    In the later years the amount of freely available multilingual corpora has grown in an exponential way. Unfortunately the way these corpora are made available is very diverse, ranging from simple text files or specific XML schemas to supposedly standard formats like the XML Corpus Encoding Initiative, the Text Encoding Initiative, or even the Translation Memory Exchange formats. In this document we defend the usage of Translation Memory Exchange documents, but we enrich its structure in order to support the annotation of the documents with different information like lemmas, multi-words or entities. To support the adoption of the proposed formats, we present a set of tools to manipulate the different formats in an agile way

    Extração de combinações lexicais restritas pela deteção da não composionalidade de expressões pluriverbais

    Get PDF
    In this article an evaluation of a method for extracting restricted lexical combinations from parallel corpora by detecting non-compositionality of multiword expressions in translation will be presented. This method presupposes that by finding sequences of words whose translation does not follow a simple word-to-word conversion of the component words, a collocation is probably present. Word bigrams are used.Neste artigo apresentamos uma avaliação sobre um método para extrair combinações lexicais restritas a partir de corpora paralelos, pela deteção da não composicionalidade de expressões pluriverbais na tradução. Este método baseia-se na presunção de que, encontrando sequências de palavras cuja tradução não siga a tradução palavra por palavra dos seus componentes, é provável estar-se perante uma colocação. São usadas palavras brigrama.info:eu-repo/semantics/publishedVersio
    corecore