40 research outputs found

    Proposta de Classificação Semântica de Unidades Lexicais Multipalavra Nominais

    Get PDF
    We present a semantic taxonomy to classify nominal multiword lexical units (MLU) for European Portuguese. Despite being built by single words, MLU don’t have a compositional meaning and have morphosyntactic restrictions. These units are so important in any text that their identification and classification is essential for information extraction and retrieval in Natural Language Processing. We adapted and applied a semantic taxonomy, based on the Lancaster semantic lexicon (Piao et alii, 2005), to a list of MLU extracted from CETEMPúblico. The results of the annotation task validated our taxonomy, because we were able to classify 97,1% of the corpus.info:eu-repo/semantics/publishedVersio

    Análise de sentimento em artigos de opinião

    Get PDF
    O estudo apresentado realiza-se na interface entre a linguística e as ciênciasda computação, tendo como objetivo fazer a análise computacional de artigos de opiniãona área da economia e finanças, seguindo o quadro teórico da análise de sentimento. Osprincipais objetivos do trabalho são i) determinar a orientação do sentimento, positivo ounegativo, e a intensidade dessa orientação através da anotação da polaridade do léxico, comincidência nos nomes e adjetivos, nos segmentos em que ocorre a expressão da opinião, eii) verificar se um léxico específico para a área de economia e finanças tem vantagens naatribuição automática de sentimento sobre um léxico geral. Para atingir esses objetivos, foi selecionado um corpus de 45 textos, analisado em duas fases por anotadores com formaçãodistinta. Primeiro, uma amostra de 10 textos foi obtida e anotada pelos investigadores da áreade linguística, coautores deste artigo, com o objetivo de desenvolver um modelo linguísticopara determinar a orientação e intensidade da polaridade de termos em artigos de opiniãoe extrair termos de léxico relevantes para esta área de estudo. Em seguida, um conjunto de35 textos foi anotado por estudantes universitários, seguindo o método utilizado na primeiraamostra. Com base na anotação linguística, a equipa das ciências da computação procuroudeterminar até que ponto um léxico de sentimento geral para a língua portuguesa - SentiLex - ésuficiente para caracterizar o sentimento de uma frase de maneira satisfatória ou se o EconoLex,um léxico específico de sentimento, seria mais eficaz. O léxico específico inclui termos eexpressões multipalavra relevantes para o domínio da economia e finanças e para a línguaportuguesa, e foi elaborado pelos autores deste estudo. Os dados foram analisados usando umametodologia mista, qualitativa e quantitativa. Os resultados obtidos permitem-nos consideraros seguintes itens como contributos desta investigação: i) a elaboração do modelo de anotaçãolinguística adotado para a análise da orientação e da intensidade da polaridade do léxico, emespecial dos nomes e adjetivos; ii) o papel central, ainda que não exclusivo, dos adjetivos paraa determinação da polaridade do sentimento nos segmentos opinativos dos artigos do corpus;iii) o desenvolvimento de um novo léxico de sentimento específico português para a área daeconomia e finanças; iv) a melhoria do desempenho computacional do EconoLex⨁SentiLexem relação ao SentiLex no que se refere ao desempenho na caracterização automática desentimento. Apesar destes resultados positivos, há algumas limitações que constituem oselementos a desenvolver na continuidade deste trabalho interdisciplinar, nomeadamente aanálise linguística mais detalhada das classes gramaticais estudadas, a consideração de outroselementos/estruturas linguísticas determinantes para a caracterização do sentimento em SN/frase, o alargamento do corpus, o aumento do léxico específico do domínio e a afinaçãodos métodos automáticos de identificação de termos de sentimento em textos de opinião edeterminação da sua intensidade.The present study, which is developed in the interface between linguistics andcomputer science within the framework of sentiment analysis, aims at making a computationalanalysis of opinion articles in the area of economics and finance. The main objectives of thestudy are: i) to determine the semantic orientation of text segments that express opinion byannotating the polarity (positive or negative) and the strength (scale from -3 to 3) of nounsand adjectives, and ii) to verify if a specific lexicon for the area of economics and finance hasadvantages in automatic annotation of sentiment over a general lexicon. To achieve theseobjectives, a corpus of 45 texts was selected and analyzed in 2 phases, by annotators withdifferent training. First, a sample of 10 texts was annotated by linguists, co-authors of thispaper, with the objective of developing a linguistic annotation model to ascertain the polarityand strength of words in opinion articles and extract the relevant words for this area of study.Then, a set of 35 texts was annotated by university students, replicating the annotation modeldeveloped during the first phase. Based on the linguistic annotation, the computer science teamtried to establish to what extent a general sentiment lexicon for Portuguese - SentiLex - wassufficient to extract the sentiment of a sentence in a satisfactory manner or whether EconoLex,a specific sentiment lexicon, would be more efficient. The specific lexicon includes terms andmultiword expressions that are relevant to the area of economics and finance and to Portugueselanguage, and it was developed by the authors of this study. The data was analyzed accordingto a blending methodology, qualitative and quantitative. The results of the analysis allow usto consider the following items as contributes of this study: i) the development of a linguisticannotation model for the analysis of the polarity and strength of the lexicon, especially of nounsand adjectives; ii) the key role, though not exclusive, of the adjectives to determine the polarityof opinion segments of the corpus articles; iii) the creation of a new specific sentiment lexiconfor Portuguese in the area of economics and finance; iv) the improvement of the computationalperformance of EconoLex⨁SentiLex in relation to SentiLex regarding the performance inautomatic annotation of sentiment. In spite of these positive results, there are some limitations,which we intend to overcome in the continuity of this interdisciplinary work, namely a moredetailed linguistic analysis of the word classes that we studied, the consideration of otherelements/ linguistic structures that are essential to ascertain the sentiment in NP/sentence, theextension of the corpus, the expansion of the specific lexicon of the area of economics andfinance and the improvement of automatic methods for identifying evaluative words in texts ofopinion and for assigning them polarity and strength

    Análise de sentimento em artigos de opinião

    Get PDF
    O estudo apresentado realiza-se na interface entre a linguística e as ciências da computação, tendo como objetivo fazer a análise computacional de artigos de opinião na área da economia e finanças, seguindo o quadro teórico da análise de sentimento. Os principais objetivos do trabalho são i) determinar a orientação do sentimento, positivo ou negativo, e a intensidade dessa orientação através da anotação da polaridade do léxico, com incidência nos nomes e adjetivos, nos segmentos em que ocorre a expressão da opinião, e ii) verificar se um léxico específico para a área de economia e finanças tem vantagens na atribuição automática de sentimento sobre um léxico geral. Para atingir esses objetivos, foiselecionado um corpus de 45 textos, analisado em duas fases por anotadores com formação distinta. Primeiro, uma amostra de 10 textos foi obtida e anotada pelos investigadores da área de linguística, coautores deste artigo, com o objetivo de desenvolver um modelo linguístico para determinar a orientação e intensidade da polaridade de termos em artigos de opinião e extrair termos de léxico relevantes para esta área de estudo. Em seguida, um conjunto de 35 textos foi anotado por estudantes universitários, seguindo o método utilizado na primeira amostra. Com base na anotação linguística, a equipa das ciências da computação procurou determinar até que ponto um léxico de sentimento geral para a língua portuguesa – SentiLex - é suficiente para caracterizar o sentimento de uma frase de maneira satisfatória ou se o EconoLex, um léxico específico de sentimento, seria mais eficaz. O léxico específico inclui termos e expressões multipalavra relevantes para o domínio da economia e finanças e para a língua portuguesa, e foi elaborado pelos autores deste estudo. Os dados foram analisados usando uma metodologia mista, qualitativa e quantitativa. Os resultados obtidos permitem-nos considerar os seguintes itens como contributos desta investigação: i) a elaboração do modelo de anotação linguística adotado para a análise da orientação e da intensidade da polaridade do léxico, em especial dos nomes e adjetivos; ii) o papel central, ainda que não exclusivo, dos adjetivos para a determinação da polaridade do sentimento nos segmentos opinativos dos artigos do corpus; iii) o desenvolvimento de um novo léxico de sentimento específico português para a área da economia e finanças; iv) a melhoria do desempenho computacional do EconoLex⨁SentiLex em relação ao SentiLex no que se refere ao desempenho na caracterização automática de sentimento. Apesar destes resultados positivos, há algumas limitações que constituem os elementos a desenvolver na continuidade deste trabalho interdisciplinar, nomeadamente a análise linguística mais detalhada das classes gramaticais estudadas, a consideração de outros elementos/estruturas linguísticas determinantes para a caracterização do sentimento em SN/ frase, o alargamento do corpus, o aumento do léxico específico do domínio e a afinação dos métodos automáticos de identificação de termos de sentimento em textos de opinião e determinação da sua intensidade.info:eu-repo/semantics/publishedVersio

    Exploração de corpora para extração e descrição de léxico de especialidade: para uma metodologia sólida e sustentada

    Get PDF
    The use of corpora for specialized lexicon extraction is a common and consensual method for building lexical resources. However, the methodologies used to achieve this are not openly discussed, rendering the comparison and determination of robust approaches difficult. In order to fill in this gap, in this paper we present and discuss a detailed methodology for extracting specialized lexicon from corpus, combining linguistic and statistical approaches. The proposed method uses specialized and monitor corpora and comprises i) frequency information analyses; ii) concordances and collocations extraction; and iii) textual organization information; accounting for core single and multiword expressions and salient semantic relations extraction. This way, our goal is the determination of a solid and accurate list of potential specialized lexical units that will allow for a swifter final validation and for maximizing the informational value of the interaction with the experts.A exploração de corpora para a extração de léxico de especialidade é um método consensual e comum na construção de recursos lexicais. No entanto, as metodologias empregadas não são explicitamente discutidas, dificultando a comparação e a determinação de abordagens robustas. Para preencher essa lacuna, neste artigo apresentamos e discutimos uma metodologia detalhada para extração de léxico de especialidade a partir de corpora, conjugando abordagens linguísticas e estatísticas. O método proposto prevê tanto o uso de corpora de especialidade como de corpora monitores e inclui: i) análise de dados de frequência; ii) extração de concordâncias e colocações; iii) extração de informação de ordem textual, permitindo a extração de unidades lexicais atómicas e multipalavra e de relações semânticas relevantes. Desse modo, o objetivo da metodologia é a determinação de listas de potenciais unidades lexicais de especialidade e de informações relevantes para a sua descrição que permitam uma validação final rápida e eficiente, maximizando o valor informacional da interação com os especialistas

    Projeto de tradução especializada: a Norma ISO 21001 para a área da educação em língua portuguesa

    Get PDF
    Relatório de estágio de mestrado em Tradução e Comunicação MultilingueO presente relatório de estágio, inserido no âmbito da conclusão do Mestrado em Tradução e Comunicação Multilingue (MTCM) da Universidade do Minho, refere-se ao estágio que foi colocado em prática em regime freelancer em parceria com o Instituto Português da Qualidade (IPQ). O estágio teve a duração de cinco meses e foi realizado no período entre 27 de fevereiro de 2018 e 30 de julho de 2018. As tarefas concretizadas durante o estágio foram definidas pela profissional de contacto Dr.ª Maria João Graça, diretora do departamento de normalização do IPQ e avaliadas pela Dr.ª Suzete Sim-Sim e corresponderam, de uma forma generalizada, à seguinte planificação: tradução da norma ISO FDIS 2101 sobre a área da Educação para a língua portuguesa, posterior revisão da mesma e elaboração da respetiva base terminológica. As minhas línguas de trabalho foram o português e o inglês sendo que o documento original se encontra na língua inglesa. No presente relatório, o trabalho efetuado ao longo do estágio é analisado de um ponto de vista linguístico e enquadrado no âmbito dos Estudos de Tradução. Esta análise pretende demonstrar que as técnicas de tradução aplicadas, bem como as dificuldades e os desafios ultrapassados estão consideravelmente relacionadas com a terminologia, sintaxe, semântica, registo linguístico e morfologia do próprio texto de partida. Este relatório foi desenvolvido com vista a discutir e exemplificar os problemas de tradução com que me deparei – que a meu ver são alguns dos principais problemas, pelo menos a nível linguístico - e tem o objetivo de apresentar soluções para os mesmos através das técnicas de tradução que utilizei.This internship report, written as a part of the completion of the Master's in Translation and Multilingual Communication of the University of Minho refers to an internship That was carried out as a freelancer in partnership with the Portuguese Quality Institute (in Portuguese abbreviated as IPQ). The internship had the duration of / lasted for five months and was held in the period between the 27th of February of 2018 and the 30th of July of 2018. The tasks developed during the internship were established by the contact professional Dr. Maria João Graça, director of the IPQ standardization department and evaluated by Dr. Suzete Sim-Sim. They corresponded to the following general planning: the translation of the ISO 21001 standard for the area of Education to the Portuguese language; the subsequent editing and post-editing of the said translation and the elaboration of a term base. My working languages were Portuguese and English, being that the source language was English. In this report, the work that has been done during the internship will be analyzed from a linguistic point of view. Such analysis aims at showing that the applied translation techniques as well as the translation’s difficulties and overcome challenges were highly related to the terminology, syntax, semantics, register and morphology of the source text. This report was developed with the intent of discussing and providing examples of the translation difficulties I faced – which I believe are some of the main problems in translation, at least at a linguistics level – and it has the aim of presenting solutions for them by referring to the translation techniques I have used

    Automatic extraction of term candidates from Course in General Linguistics with resources from corpus linguistics and natural language processing

    Get PDF
    Este trabalho apresenta um estudo em que técnicas de Processamento de Linguagem Natural (PLN) e de Linguística de Corpus (LC) são utilizadas para extrair e estruturar termos relacionados a conceitos importantes de Saussure no texto em português do Curso de Linguística Geral (CLG). Tomando o CLG como um corpus, busca-se um método de representação automática de conteúdo através de ferramentas computacionais. Uma vez submetido ao parser PALAVRAS, um etiquetador morfossintático para a língua portuguesa, o corpus do CLG é processado pela ferramenta extratora de sintagmas nominais relevantes, denominada ExATOlp, que implementa diversas técnicas de PLN de base linguística e de base estatística. Em seguida, são geradas listas e gráficos hierarquizados dos sintagmas nominais do CLG, elencados pela ferramenta como os mais específicos/relevantes do corpus em questão. Esses resultados são comparados com dados gerados pela ferramenta AntConc, ferramenta de acesso livre bastante empregada em trabalhos de LC, aplicada ao mesmo corpus. Os resultados mostram o potencial da ferramenta ExATOlp para trabalhos em LC e para o levantamento de dados lexicais para estudos terminológicos, para a mineração de dados e para a geração de ontologias em língua portuguesa.This paper presents a study based on Natural Language Processing techniques (PLN) and Corpus Linguistics (CL) approaches to extract terms related to important saussurean concepts in the Brazilian Portuguese edition of the Course in General Linguistics. Taking the CGL as a corpus, we aim at an automatic representation method of content through computer tools. Once submitted to the parser PALAVRAS, a morphossyntatic tagger, the corpus is processed by ExATOlp, a tool implementing various linguistic and statistically based NLP techniques. The tool generates hierarchical lists and charts of noun phrases, which are organized according to their specificity / relevance in the target corpus. These lists are then compared to data generated by AntConc - a free access tool quite used in LC approaches - applied to the same corpus. The results show the potential of ExATOlp in works on LC and in colleting lexical data for terminology studies, data mining and generation of ontologies in Portuguese

    Para uma metodologia sólida e sustentada

    Get PDF
    UIDB/03213/2020 UIDP/03213/2020A exploração de corpora para a extração de léxico de especialidade é um método consensual e comum na construção de recursos lexicais. No entanto, as metodologias empregadas não são explicitamente discutidas, dificultando a comparação e a determinação de abordagens robustas. Para preencher essa lacuna, neste artigo apresentamos e discutimos uma metodologia detalhada para extração de léxico de especialidade a partir de corpora, conjugando abordagens linguísticas e estatísticas. O método proposto prevê tanto o uso de corpora de especialidade como de corpora monitores e inclui: i) análise de dados de frequência; ii) extração de concordâncias e colocações; iii) extração de informação de ordem textual, permitindo a extração de unidades lexicais atómicas e multipalavra e de relações semânticas relevantes. Desse modo, o objetivo da metodologia é a determinação de listas de potenciais unidades lexicais de especialidade e de informações relevantes para a sua descrição que permitam uma validação final rápida e eficiente, maximizando o valor informacional da interação com os especialistas.publishersversionpublishe

    Extracção automática de tópicos de documentos

    Get PDF
    Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para a obtenção do grau de Mestre em Engenharia InformáticaÉ amplamente conhecida a necessidade de se terem palavras-chave ou tópicos associados a documentos. Entende-se por palavras-chave ou por tópico (s) de um documento qualquer palavra ou multipalavra (uma sequência de 2 ou mais palavras) que, tendo um significado mais ou menos preciso, resume em si parte do conteúdo desse documento. Neste trabalho pretendo desenvolver uma nova metodologia que aborda a problemática de extracção de palavras-chave. Para tal, trabalharei a extracção das palavras-chave trabalhando com palavras, multipalavras e prefixos de palavras com comprimentos predefinidos (5 caracteres). A utilização de prefixos permite trabalhar com línguas altamente flexionadas, servindo os prefixos tópico como sinalizadores de toda uma família de palavras e de multipalavras que poderão, nesse caso, ser promovidas a tópicos, sendo a extracção destes prefixos inovadora, relativamente ao estado da arte. A extracção a realizar será baseada em estatística, o que possibilita trabalhar com textos de várias línguas, nomeadamente o Português, o Inglês e o Checo, que foram as línguas utilizadas neste trabalho. Pretendi melhorar os tempos de extracção de tópicos, recorrendo para isso à utilização de Suffix Arrays. Os resultados obtidos foram avaliados por pessoas externas. É feita também uma comparação bastante exaustiva entre 24 métodos de extracção, alguns novos, propostos neste trabalho, outros propostos por outros autores. Com esta dissertação pretendo fornecer uma nova ferramenta a trabalhos posteriores de sumarização de documentos, de Agrupamento ou indexação de documentos, de construção de ontologias

    Relatório de estágio curricular no Camões, I.P. : léxico e tradução

    Get PDF
    Este relatório de estágio tem por base o trabalho realizado durante o estágio curricular que decorreu no Camões – Instituto da Cooperação e da Língua no âmbito do Mestrado em Tradução da Faculdade de Letras da Universidade de Lisboa. E tem como principal objetivo a análise e discussão de temáticas do foro linguístico, nomeadamente questões lexicais. O trabalho desenvolvido ao longo do estágio curricular consistiu na tradução para língua portuguesa de vários textos de âmbitos técnicos e científicos, sobre uma variedade de temáticas, originalmente escritos em língua inglesa. Com vista à elaboração deste relatório, foram selecionados vários exemplos representativos de alguns fenómenos lexicais cuja tradução foi particularmente desafiante, ou que colocam em evidência dificuldades que podem surgir durante a tradução de textos de diversas áreas do saber. O relatório de estágio encontra-se dividido em três capítulos. No primeiro capítulo é feita uma breve apresentação da entidade de acolhimento, bem como uma descrição e caracterização do estágio curricular, da sua organização e dos métodos de trabalho aplicados no decorrer do mesmo. É também feita uma breve descrição dos principais documentos que foram trabalhados e que serviram de base à discussão que surge noutra parte do relatório. No segundo capítulo são apresentadas as bases teóricas que sustentam o relatório. Nele é feita uma breve caracterização da Tradução enquanto objeto de estudo, das diferentes tipologias de texto traduzidas e das características do tradutor e do seu papel no trabalho de tradução. No terceiro capítulo do relatório procede-se à análise e discussão dos fenómenos lexicais propriamente ditos. Este capítulo subdivide-se em várias secções com base no fenómeno a ser analisado, nomeadamente léxico especializado, empréstimos, questões de localização e phrasal verbs.This internship report is based on the work developed during a curricular internship carried out at Camões – Instituto da Cooperação e da Língua, as part of the master’s degree in Translation, offered by Faculdade de Letras da Universidade de Lisboa. The main goal is to present an analysis and discussion on several subjects related to Linguistics, with a specific focus on the lexicon. During the aforementioned internship we translated several scientific and technical texts on a wide range of subjects from English to Portuguese. In order to write this report I chose a sample of lexical phenomena whose translation was particularly challenging or that clearly exemplify the types of difficulties which may occur while translating similar documents. This internship report is divided into three chapters. The first of these includes a brief description of the hosting organization as well as a description of the internship, the way it was organized and the work methods used during said internship. This chapter also features a brief description of the most important documents I translated, which are the basis of the analysis featured in chapter 3. In the second chapter I present the theoretical framework of the report. It also includes a short discussion on the subject of Translation, the different types of texts, the characteristics of the Translator and its role in the greater scope of Translation work. The third chapter is comprised of the analysis and discussion of the lexical phenomena themselves. This chapter is divided into several sections corresponding to each type of phenomenon covered in this report: specialized lexicon; loanwords; localization; and phrasal verbs

    Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10 anos

    Get PDF
    corecore