342 research outputs found

    Relatório da Linguateca relativo ao ano de 2011

    Get PDF

    Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"

    Get PDF
    A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/

    Information extraction platform

    Get PDF
    Mestrado em Engenharia de Computadores e Telemática Departamento de EletrónicaA informação está cada vez mais presente nos dias de hoje e aumenta exponencialmente a cada instante, trazendo por consequência informação não filtrada e como tal informação não necessária ou não objetiva. Para tentar colmatar esse facto foi desenvolvido um projeto que visa conseguir extração de informação na língua portuguesa, através de relações genéricas. Sabendo à partida que essas moldam um padrão que caracteriza uma determinada precisão, o objetivo do sistema que aqui se apresenta assenta na extração de informação de texto que rege uma ligação entre argumentos, com a particularidade de evitar uma pré definição de relações à priori. Os sistemas de Extração de Informação partilham de três fraquezas que não se devem descurar. 1. A extração é normalmente feita com base em verbos. 2. É ignorado o contexto, pelo que os tuplos extraídos não podem ser afirmados como factuais, salvo algumas exceções, como as datas. 3. Existe a dificuldade de Extração de informação (EI) na língua Portuguesa devido ao tagset utilizado, sendo que a língua aceite nestes termos é sobretudo o Inglês, cujo tagset é Penn Treebank[25] e que não é diretamente mapeado para um tagset de língua Portuguesa Esta dissertação de mestrado tem como objetivo inicial o processamento de texto sob a língua portuguesa e que assenta na extração de informação com relações genéricas em Português e que retratem com alguma objetividade o geral do que se trata o texto. Os métodos utilizados que interagem entre si, observam e processam o texto com o objetivo de formar uma solução no tema proposto. Todos esses passos serão descritos e dissecados nesta dissertação. Foramexecutadasavaliaçõesdeversõesetestadosresultados,nasquais se caracteriza sobretudo a perceção da informação extraída, precisão de modelos de extração tendo como foco relações tipo e não descurando o processamento do output e a forma como seria apresentado ao utilizador. Esperam-se extrações de informação que se complementem e façam sentido entre as mesmas e que para além de relações entre argumentos, nos seja dada informação sobre o texto processado. O objetivo fora concretizado na medida em que o software proposto não só extrai informação de domínio genérico, como também essa informação se complementa à medida que é extraída, fazendo com que haja uma linha de continuidade na informação, retratando pontos importantes no texto inicial e com isso obtendo resultados positivos no domínio da extração de informação e dando um contributo na área, ainda que tenha limitações bem visíveis e que demoveram alguns dos objetivos propostos inicialmente.Information is increasingly present today and increases exponentially at every moment, bringing unfiltered information as a consequence with non-necessary or non-objective information. In order to try to overcome this, a project was developed to extract informationinPortugueselanguagethroughgenericrelations. Knowing at the outset that these mold a pattern that characterizes a certain precision, the purpose of the system presented here is based on the extraction of text information that governs a link between arguments, with the particularity of avoiding some definition of any relations. Information Extraction systems share three weaknesses that should not be overlooked. 1. Extraction is usually done based on verbs. 2. The context is ignored, so the extracted tuples can not be stated as factual, except for some exceptions, such as dates. 3. There is a difficulty in Information Extraction (IE) in Portuguese language due to the tagset used, and the language accepted in these terms is mainly English, whose tagset is Penn Treebank[25] andwhichisnotdirectlymappedtoaPortugueselanguagetagset This Master’s Thesis aims at the processing of text under the Portuguese language and based on the extraction of information with generic relationships in Portuguese and describe, with some objectivity, the general of what the text is about. The methods used interact with each other, observe and process the text with the objective of forming a solution in the proposed theme. All these steps will be described and dissected in this dissertation. We performed evaluations of versions and tested results, in which it is mainly characterized the perception of the information extracted, precisionofextractionmodelshavingfocusrelationsandnotneglecting the processing of the output and the way it would be presented to the user. Extractions of information are expected to complement each other and make sense among them and that in addition to relations between arguments, information about the text processed is given to us. The objective was accomplished insofar as the proposed software not only extracts information from generic domain, but also complements the information as it’s extracted, making a continuity line of information, highlighting important points in the initial text and having positive results in the field of information extraction and making a contribution in the area, although it has very visible limitations and that have demolished some of the goals initially proposed

    Entrevista com Christian Bromberger

    Get PDF
    O antropólogo francês Christian Bromberger esteve em Porto Alegre em meados de novembro de 2015, como convidado do evento “Diálogos Internacionais sobre Esporte, Lazer e Educação Física”, realizado na ESEF/UFRGS. Na ocasião ele também esteve proferindo uma palestra no Instituto Latino-Americano de Estudos Avançados (Ilea/UFRGS), intitulada “Um outro Irã”. Esta foi a segunda ocasião em que Bromberger esteve no Brasil, sendo que a primeira delas foi em 2007, por ocasião da realização da VII Reu..

    Anotador automático de texto

    Get PDF
    Dissertação de Licenciatura apresentada à Universidade Aberta, 2010O objectivo do projecto é construir um anotador automático de texto que identifique entidades nomeadas ("named entities") que não serão mais que os termos definidos na Wikipédia

    Almanaque de lembranças luso-brasileiro: um ensaio para um projecto maior

    Get PDF
    Tese de mestrado, Estudos Românicos, Universidade de Lisboa, Faculdade de Letras, 2011Esta dissertação teve como principal objectivo encontrar uma escritora que através de suas obras pudesse estabelecer um elo de ligação entre Portugal e o Brasil, para tal e dentre muitas ilustríssimas senhoras destacamos Guiomar Delphina de Noronha Torrezão, uma mulher muito além de seu tempo, que fez e que marcou história. No fim do século XVIII as mulheres foram gradativamente libertando-se das amarras do ideal burguês e começaram elas próprias a construir uma nova identidade, afirmando o seu estatuto e tomando as rédeas do seu próprio destino. Guiomar Torrezão sem sombra de dúvida foi uma destas mulheres, ela empreendeu uma luta contínua a favor da instrução da mulher e da sua afirmação pelo seu valor como indivíduo. Guiomar Torrezão tinha a necessidade de criar um meio de comunicação de largo alcance que pudesse difundir suas ideias sobre a necessidade conduzir as mulheres a sua emancipação. Depois de ter colaborado a partir de 1868 no Almanaque de Lembranças Luso- Brasileiro esta autora decidiu investir num grande projecto semelhante, que foi a criação do Almanach das Senhoras. Nesta dissertação lançamos a hipótese de que a experiencia obtida por Guiomar Torrezão como colaboradora no formato “Almanaque” lhe tenha servido de inspiração e de modelo, para a publicação que fundou.Abstract:This dissertation had as its main goal the study of a woman writer whose work could be considered relevant for both Portugal and Brazil. This is why we chose Guiomar Delphina Torrezão, a woman ahead of her time who had an important historical role. At the end of the 18th century women were able to gradually free themselves of the bourgeois ideal of femininity and started building a new feminine identity. Guiomar Torrezão was one of these women and fought continuous battles in favor of women’s education and the affirmation of women’s value as individuals. She felt the need to create a means of mass communication through which she could communicate her ideas about women’s rights and women’s roles to a large audience. After having collaborated with the Almanaque de Lembranças Luso-Brasileiro, this author decided to invest in a similar project, more specifically directed to women readers: the Almanach das Senhoras. In this dissertation we launch the hipothesis that the previous experienceobtained by Guiomar as a collaborator of almanacs has been used by her as a model and an inspiration for her publication
    corecore