3 research outputs found
Desenvolvimento de aplicações em perl com freeLing 3
O FreeLing é uma ferramenta para processamento de linguagem natural, em especial para análise morfossintáctica e cálculo de árvores de dependências. Embora a escolha de implementação em C++ seja relevante pela eficiência, torna complicado o desenvolvimento de pequenas ferramentas. Além disso, a interface Perl disponibilizada com o próprio FreeLing não é mais que um mapeamento directo da API C++ para Perl, o que não é o mais adequado. Este artigo apresenta as decisões de implementação do módulo Perl FL3, e discute como esta interface torna simples a escrita de pequenos processadores de linguagem natural em Perl
Processing Annotated TMX Parallel Corpora
In the later years the amount of freely available multilingual
corpora has grown in an exponential way. Unfortunately the way these
corpora are made available is very diverse, ranging from simple text
files or specific XML schemas to supposedly standard formats like
the XML Corpus Encoding Initiative, the Text Encoding Initiative, or
even the Translation Memory Exchange formats.
In this document we defend the usage of Translation Memory Exchange
documents, but we enrich its structure in order to support the
annotation of the documents with different information like lemmas,
multi-words or entities.
To support the adoption of the proposed formats, we present a set of
tools to manipulate the different formats in an agile way
Extração de combinações lexicais restritas pela deteção da não composionalidade de expressões pluriverbais
In this article an evaluation of a method for extracting restricted lexical combinations from parallel corpora by detecting non-compositionality of multiword expressions in translation will be presented. This method presupposes that by finding sequences of words whose translation does not follow a simple word-to-word conversion of the component words, a collocation is probably present. Word bigrams are used.Neste artigo apresentamos uma avaliação sobre um método para extrair combinações
lexicais restritas a partir de corpora paralelos, pela deteção da não composicionalidade
de expressões pluriverbais na tradução. Este método baseia-se na presunção de que,
encontrando sequências de palavras cuja tradução não siga a tradução palavra por
palavra dos seus componentes, é provável estar-se perante uma colocação. São usadas
palavras brigrama.info:eu-repo/semantics/publishedVersio