Search CORE

3 research outputs found

Desenvolvimento de aplicações em perl com freeLing 3

Author: Carvalho Nuno
Simões Alberto
Publication venue
Publication date: 01/12/2012
Field of study

O FreeLing é uma ferramenta para processamento de linguagem natural, em especial para análise morfossintáctica e cálculo de árvores de dependências. Embora a escolha de implementação em C++ seja relevante pela eficiência, torna complicado o desenvolvimento de pequenas ferramentas. Além disso, a interface Perl disponibilizada com o próprio FreeLing não é mais que um mapeamento directo da API C++ para Perl, o que não é o mais adequado. Este artigo apresenta as decisões de implementação do módulo Perl FL3, e discute como esta interface torna simples a escrita de pequenos processadores de linguagem natural em Perl

Universidade do Minho: RepositoriUM

Directory of Open Access Journals

Processing Annotated TMX Parallel Corpora

Author: Almeida J. J.
Brito Rui Miguel Magalhães
Simões Alberto
Publication venue
Publication date: 01/11/2014
Field of study

In the later years the amount of freely available multilingual corpora has grown in an exponential way. Unfortunately the way these corpora are made available is very diverse, ranging from simple text files or specific XML schemas to supposedly standard formats like the XML Corpus Encoding Initiative, the Text Encoding Initiative, or even the Translation Memory Exchange formats. In this document we defend the usage of Translation Memory Exchange documents, but we enrich its structure in order to support the annotation of the documents with different information like lemmas, multi-words or entities. To support the adoption of the proposed formats, we present a set of tools to manipulate the different formats in an agile way

Universidade do Minho: RepositoriUM

Extração de combinações lexicais restritas pela deteção da não composionalidade de expressões pluriverbais

Author: Iriarte Sanromán Álvaro
Simões Alberto
Veloso Joana Isabel da Silva
Publication venue: Universidade do Minho. Centro de Estudos Humanísticos (CEHUM)
Publication date: 01/01/2016
Field of study

In this article an evaluation of a method for extracting restricted lexical combinations from parallel corpora by detecting non-compositionality of multiword expressions in translation will be presented. This method presupposes that by finding sequences of words whose translation does not follow a simple word-to-word conversion of the component words, a collocation is probably present. Word bigrams are used.Neste artigo apresentamos uma avaliação sobre um método para extrair combinações lexicais restritas a partir de corpora paralelos, pela deteção da não composicionalidade de expressões pluriverbais na tradução. Este método baseia-se na presunção de que, encontrando sequências de palavras cuja tradução não siga a tradução palavra por palavra dos seus componentes, é provável estar-se perante uma colocação. São usadas palavras brigrama.info:eu-repo/semantics/publishedVersio

Universidade do Minho: RepositoriUM