25 research outputs found

    Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

    Get PDF
    No desenvolvimento de analisadores sintáticos profundos paratextos irrestritos, a principal dificuldade a ser vencida é a modelaçãodo léxico. Tradicionalmente, duas estratégias têm sido usadas paralidar com a informação lexical na análise sintática automática: acompilação de milhares de entradas lexicais ou a formulação decentenas de regras morfológicas. Devido aos processos produtivosde formação de palavras, aos nomes próprios ou a grafias não padrão,a primeira estratégia, que subjaz aos analisadores do português doBrasil (PB) livremente descarregáveis da Internet, não é robusta.A última estratégia, por sua vez, constitui tarefa não trivial deengenharia do conhecimento, consumindo muito tempo. Nomomento, o PB não dispõe de um analisador sintático de amplacobertura licenciado como software livre. Visando aopreenchimento o mais rápido possível dessa lacuna, argumentamosneste artigo que uma solução bem menos custosa e muito maiseficiente para o gargalo lexical consiste em simplesmentereaproveitar, como componente lexical do processamento sintáticoprofundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corporamorfossintaticamente anotados do PB e eficientes pacotes deaprendizado de máquina, a construção de etiquetadores de altaacurácia adicionais tornou-se uma tarefa que quase não demandaesforço. A fim de integrar facilmente o output de etiquetadores dediferentes arquiteturas em parsers tabulares de gramáticas livresde contexto compilados por meio do Natural Language Toolkit(NLTK), desenvolvemos um módulo em Python denominadoALEXP. Pelo que sabemos, o ALEXP é o primeiro software livreespecialmente otimizado para o processamento do português arealizar essa tarefa. A funcionalidade da ferramenta é descrita pormeio de protótipos de gramática do PB aplicados na análise desentenças do mundo real, com resultados bastante promissores

    Donatus: uma interface amigável para o estudo da sintaxe formal utilizando a biblioteca em Python do NLTK

    Get PDF
    Este trabalho objetiva, primeiramente, evidenciar a utilidade da CFG e da FCFG no estudo da sintaxe formal. A aplicação de parsers baseados nesses formalismos na análise de um corpus pode revelar consequências de uma dada análise que de outro modo passariam despercebidas. O NLTK é uma caixa de ferramentas para o PLN em Python que possibilita a construção de parsers em diferentes arquiteturas. No entanto, para uma utilização não trivial dessa biblioteca na análise sintática automática são necessários conhecimentos de programação. Para permitir o acesso de não programadores à implementação e testagem de parsers, desenvolvemos o Donatus, uma interface gráfica amigável para as facilidades de parsing do NLTK, dotada de recursos adicionais que a tornam interessante também para programadores. Como exemplo do funcionamento da ferramenta e demonstração da sua relevância na investigação sintática formal, comparamos implementações de duas análises alternativas da modificação adjetival em português. A primeira abordagem, baseada na Teoria X-barra tradicional, produziu um grande número de pseudoambiguidades. Esse problema foi evitado por um parser baseado em abordagem no âmbito do Programa Minimalista. Sem o recurso do computador, essa diferença entre as duas abordagens não seria facilmente revelada

    Uma implementação computacional de construções verbais perifrásticas em francês

    Get PDF
    This paper describes the treatment of passive and compound past tense in FrGramm, a computational grammar of French, implemented within Lexical-Functional Grammar (LFG) using the XLE software. Due to the dual auxiliary system and past participle agreement, the latter periphrasis manifests greater structural complexity and therefore presents a greater challenge to computational implementation in French than in languages such as English and Portuguese. An additional difficulty is modeling the morphological and syntactico- semantic regularities of the passive construction. In FrGramm, this problem is solved by means of a productive lexical rule. FrGramm also implements the constraints governing the building of both verbal periphrases, excepting participle object agreement. The implementation was evaluated by applying a parser to a set of 157 grammatical sentences and a set of 279 ungrammatical sentences. All sentences from the former set were correctly parsed. Only two constructions from the latter set that violate the linear precedence of the compound past auxiliary over the passive auxiliary were analyzed as grammatical. FrGramm is the only LFG grammar of French with similar coverage that is freely available on-line. A future version will handle participle object agreement and also avoid the mentioned overgeneration.Este artigo descreve o tratamento da passiva e do passado composto na FrGramm, uma gramática computacional do francês implementada na Gramática Léxico-Funcional (LFG) usando o software XLE. Devido à dualidade de auxiliares e concordância do particípio passado (PTPST), a segunda perífrase exibe uma maior complexidade estrutural em francês do que em línguas como inglês e português, representando, consequentemente, um maior desafio à implementação computacional. Uma dificuldade adicional é a modelação das regularidades morfológicas e sintático-semânticas da passiva. A FrGramm resolve esse problema por meio de uma regra lexical produtiva. Também implementa as restrições que governam a formação das duas perífrases verbais, exceto a concordância do PTPST com o objeto direto. A implementação foi avaliada pela aplicação de um analisador sintático automático (parser) a 157 sentenças gramaticais e 279 construções agramaticais. Todas as sentenças do primeiro conjunto foram analisadas corretamente. Apenas duas construções do segundo que violam a precedência do auxiliar do passado composto sobre o da passiva foram analisadas como gramaticais. A FrGramm é a única gramática LFG do francês com essa cobertura atualmente disponibilizada livremente. Uma versão futura dará conta da concordância do PTPST com o objeto direto e evitará a hipergeração referida

    Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos

    Get PDF
    This paper presents LEXPOR, a prototype of a morphological component of Portuguese capable of segmenting and classifying the constituents of complex words resulting from suffixation of -ismo, -iano, -ês and -mente as well as from prefixing the words so derived with Greek or Latin prefixes such as neo-, pseudo-, anti-, or ultra-. We assume that a representation of complex words in terms of morphemes and morphosyntactic categories plays an important role not only in corpus linguistics, but also in other subfields of text technology, such as Information Extraction and Information Retrieval. This prototype consists of a lexical transducer modeling the set of words that can potentially be built using these derivational affixes. This transducer was compiled from a morphotactics and morphophonological description of this lexicon fragment as well as orthographic alternation rules formalized in the xfst and lexc finite-state programming languages. Its main feature is the ability to analyze neologisms built from non-lexicalized words borrowed from other languages. Since the use of foreign anthroponyms is one of the main causes of the extreme productivity of the derivational affixes we focus on, LEXPOR provides an adequate architecture for developing an automatic tagger for Portuguese, capable of overcoming the shortcomings of the CETENFolha corpus and of the parser for the VISL project. In both these cases, morphological analyses of complex words formed with the derivational affixes mentioned above are often either insufficiently detailed or simply incorrect. Key words: derivation, suffixation, prefixation, automata, lexical transducers, finite-state morphology, automatic corpus annotation, corpus linguistics, computational linguistics.Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classificar os constituintes de derivados por meio da sufixação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefixação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti- ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afixos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográficas desse fragmento do léxico, formalizada nas linguagens de programação de estados finitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afixos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afixos derivacionais referidos frequentemente são insuficientemente detalhadas ou simplesmente incorretas. Palavras-chave: derivação, sufixação, prefixação, autômatos, transdutores lexicais, morfologia de estados finitos, anotação automática de corpora, linguística computacional, linguística de corpus

    The possessive passive in portuguese: a lexicalist approach with a computational implementation

    Get PDF
    The possessive passive is one of the most discussed grammatical phenomena of East Asian languages. In Portuguese, although common, it has apparently been discussed only by Lunguinho (2011, 2013, 2016) in a transformational approach with constructed examples. In this paper, we oppose this approach both theoretically and methodologically. On the one hand, we propose a purely lexicalist analysis based on the non-transformational LFG and LDG models. On the other, we resort to evidence extracted from authentic texts. This twofold strategy allows us to explain data that do not fit Lunguinho’s proposal. We argue that the distinctive properties of this passive variety result from a lexical rule that extends the argument structure of the verb ter ‘have’, by incorporating a predicate variable into its semantic form. This variable is linked to a predicative argument, turning ter into an object control equi verb

    Passive as adjective predicative construction in portuguese: morphological evidence and implementation in LFG/XLE

    Get PDF
    Traditional grammars of Portuguese handle the passive construction as a voice phenomenon which is part of the verbal conjugation. In this paper, we discuss the claim by Perini (2010) that there is no passive voice in Portuguese. We compare this approach to the one of POLFIE. This is a computational grammar of Polish which was developed within the framework of LFG and implemented in XLE. In this grammar, the passive construction is an adjective predicative construction. We present additional morphological evidence on the adjectival status of the passive participle in Portuguese and implement this analysis in BrGram, a computational grammar of Brazilian Portuguese that is analogous to POLFIE. KEYWORDS: Passive Voice. Lexical-Functional Grammar. Computational Linguistics. Syntactic Parsing. Evaluative Suffixes.Gramáticas tradicionais do português tratam a passiva como voz, incluindo-a no quadro da conjugação verbal. Neste artigo, discutimos os argumentos de Perini (2010) de que não há voz passiva em português e relacionamos essa proposta com a abordagem da POLFIE, uma gramática do polonês desenvolvida no quadro da LFG e implementada no sistema XLE. Conforme essa gramática, a passiva é uma construção predicativa adjetival. Apresentamos uma evidência adicional, de natureza morfológica, do estatuto adjetival do particípio passivo em português e implementamos essa análise na BrGram, uma gramática do português do Brasil nos moldes da POLFIE. PALAVRAS-CHAVE: Voz Passiva. Gramática Léxico- Funcional. Linguística Computacional. Parsing Sintático. Sufixos Avaliativos. ABSTRACTTraditional grammars of Portuguese handle the passive construction as a voice phenomenon which is part of the verbal conjugation. In this paper, we discuss the claim by Perini (2010) that there is no passive voice in Portuguese. We compare this approach to the one of POLFIE. This is a computational grammar of Polish which was developed within the framework of LFG and implemented in XLE. In this grammar, the passive construction is an adjective predicative construction. We present additional morphological evidence on the adjectival status of the passive participle in Portuguese and implement this analysis in BrGram, a computational grammar of Brazilian Portuguese that is analogous to POLFIE. KEYWORDS: Passive Voice. Lexical-Functional Grammar. Computational Linguistics. Syntactic Parsing. Evaluative Suffixes. &nbsp

    Processo para aumentar a eficiência da eletrocoalescência de emulsões água e óleo

    Get PDF
    DepositadaÉ descrito um processo para aumentar a eficiência da eletrocoalescência de emulsões água/óleo (A/O) formadas em instalações de tratamento de petróleo nas etapas de dessalgação e desidratação, dito processo compreendendo formar uma composição incluindo entre 0,001 % e 50% em peso de triglicerídeos vegetais, animais ou sintéticos, petróleo e água entre 2% e 40% de água, preferencialmente entre 5% e 25% de água em peso, e submeter tal composição a um campo eletrostático sob corrente alternada ou contínua ou ambas, alternada e contínua, no interior de um vaso, e recuperando ao término do processo duas fases líquidas, sendo uma aquosa e outra oleosa, separando a fase oleosa com rendimento maior do que em processos de eletrocoalescência que não empregam a composição contendo triglicerídeos vegetais, animais ou sintéticos, petróleo e água. Também é descrita a composição utilizada no dito processo

    Logical polysemy, event and argument structure of some German shooting-verbs

    No full text
    In this paper we raise firstly inadequacies of the analysis of the verb to shoot by Croft (1998). Subsequently, we assign to this verb alternative configurations of base and profile according to the causal structure model (Croft, 1991, 1998) and the action chain model (Langacker, 1999). That forms the basis of a cognitive-grammatical description of a subset of the readings of the German verbs schießen, abschießen, anschießen, erschießen, totschießen and niederschießen. It will be suggested that these senses can be attributed to a large extent to functions, which are applied to verbal bases and profiles, and extend or shift these segments. Qualia structure of the verbs' complements are also considered. Aspects of the generative lexicon theory (Pustejovsky, 1995) are included in this way into the cognitive semantic analysis. Differently than proposed by Pustejovsky (1995), however, we plead for ordered rules, which erase certain arguments of a verb under certain conditions, instead of classifying these items according to their possibility of being omitted

    A passiva possessiva em português: uma abordagem lexicalista com uma implementação computacional

    No full text
    The possessive passive is one of the most discussed grammatical phenomena of East Asian languages. In Portuguese, although common, it has apparently been discussed only by Lunguinho (2011, 2013, 2016) in a transformational approach with constructed examples. In this paper, we oppose this approach both theoretically and methodologically. On the one hand, we propose a purely lexicalist analysis based on the non-transformational LFG and LDG models. On the other, we resort to evidence extracted from authentic texts. This twofold strategy allows us to explain data that do not fit Lunguinho’s proposal. We argue that the distinctive properties of this passive variety result from a lexical rule that extends the argument structure of the verb ter ‘have’, by incorporating a predicate variable into its semantic form. This variable is linked to a predicative argument, turning ter into an object control equi verb.A passiva possessiva constitui um dos fenômenos gramaticais mais discutidos das línguas do leste asiático. Em português, embora comum, foi discutida, segundo parece, unicamente por Lunguinho (2011; 2013; 2016), numa abordagem transformacional, utilizando exemplos construídos. No presente artigo, contrapomo-nos a essa abordagem tanto no plano teórico quanto no metodológico. Por um lado, propomos uma análise puramente lexicalista no quadro dos modelos não transformacionais LFG e LDG. Por outro, recorremos a evidências extraídas de textos autênticos. Essa dupla estratégia permite explicar dados que não se encaixam na proposta de Lunguinho. Argumentamos que as propriedades distintivas dessa passiva resultam de uma regra lexical que estende a estrutura argumental de ter pela incorporação de uma variável de predicado à sua forma semântica. Essa variável é vinculada a um argumento predicativo, tornando ter um verbo de controle do objeto do tipo equi.La pasiva posesiva es uno de los fenómenos gramaticales más discutidos en los idiomas de Asia oriental. En portugués, aunque es común, fue discutido, aparentemente, solo por Lunguinho (2011, 2013, 2016), en un enfoque transformacional utilizando ejemplos construidos. En este artículo, nos oponemos a este enfoque tanto teórica como metodológicamente. Por un lado, proponemos un análisis puramente lexicalista basado en los modelos no transformacionales LFG y LDG. Por otro lado, recurrimos a evidencias extraídas de textos auténticos. Esta doble estrategia nos permite explicar datos que no se ajustan a la propuesta de Lunguinho. Argumentamos que las propiedades distintivas de esta variedad pasiva resultan de una regla léxica que extiende la estructura de argumento del verbo ter 'tener' al incorporar una variable predicativa a su forma semántica. Esta variable está vinculada a un argumento predicativo, convirtiendo ter en un verbo equi de control de objeto
    corecore