142 research outputs found

    Building and exploring semantic equivalences resources

    Get PDF
    Language resources that include semantic equivalences at word level are common, and its usefulness is well established in text processing applications, as in the case of search. Named entities also play an important role for text based applications, but are not usually covered by the previously mentioned resources. The present work describes the WES base, Wikipedia Entity Synonym base, a freely available resource based on the Wikipedia. The WES base was built for the Portuguese Language, with the same format of another freely available thesaurus for the same language, the TeP base, which allows integration of equivalences both at word level and entity level. The resource has been built in a language independent way, so that it can be extended to different languages. The WES base was used in a Question Answering system, enhancing significantly its performance.info:eu-repo/semantics/publishedVersio

    Robust question answering

    Get PDF
    A Question Answering (QA) system should provide a short and precise answer to a question in natural language, by searching a large knowledge base consisting of natural language text. The sources of the knowledge base are widely available, for written natural language text is a preferential form of human communication. The information ranges from the more traditional edited texts, for example encyclopaedias or newspaper articles, to text obtained by modern automatic processes, as automatic speech recognizers. The work developed in the present thesis focuses on the Portuguese language and open domain question answering, meaning that neither the questions nor the texts are restricted to a specific area, and it aims to address both types of written text. Since information retrieval is essential for a QA system, a careful analysis of the current state-of-the-art in information retrieval and question answering components was conducted. A complete, efficient and robust question answering system is developed in this thesis, consisting of new modules for information retrieval and question answering, that is competitive with current QA systems. The system was evaluated at the Portuguese monolingual task of QA@CLEF 2008 and achieved the 3rd place in 6 Portuguese participants and 5th place among the 21 participants of 11 languages. The system was also tested in Question Answering over Speech Transcripts (QAST), but outside the official evaluation QAST of QA@CLEF, since Portuguese was not among the available languages for this task. For that reason, an entire test environment consisting of a corpus of transcribed broadcast news and a matching question set was built in the scope of this work, so that experiments could be made. The system proved to be robust in the presence of automatically transcribed data, with results in line with the best reported at QAST.info:eu-repo/semantics/publishedVersio

    Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information

    Full text link
    This paper presents the first publicly available version of the Carolina Corpus and discusses its future directions. Carolina is a large open corpus of Brazilian Portuguese texts under construction using web-as-corpus methodology enhanced with provenance, typology, versioning, and text integrality. The corpus aims at being used both as a reliable source for research in Linguistics and as an important resource for Computer Science research on language models, contributing towards removing Portuguese from the set of low-resource languages. Here we present the construction of the corpus methodology, comparing it with other existing methodologies, as well as the corpus current state: Carolina's first public version has 653,322,577653,322,577 tokens, distributed over 77 broad types. Each text is annotated with several different metadata categories in its header, which we developed using TEI annotation standards. We also present ongoing derivative works and invite NLP researchers to contribute with their own.Comment: 14 pages, 3 figures, 1 appendi

    Joint semantic discourse models for automatic multi-document summarization

    Get PDF
    Automatic multi-document summarization aims at selecting the essential content of related documents and presenting it in a summary. In this paper, we propose some methods for automatic summarization based on Rhetorical Structure Theory and Cross-document Structure Theory. They are chosen in order to properly address the relevance of information, multidocument phenomena and subtopical distribution in the source texts. The results show that using semantic discourse knowledge in strategies for content selection produces summaries that are more informative.Sumarização automática multidocumento visa à seleção das informações mais importantes de um conjunto de documentos para produzir um sumário. Neste artigo, propõem-se métodos para sumarização automática baseando-se em conhecimento semântico-discursivo das teorias Rhetorical Structure Theory e Cross-document Structure Theory. Tais teorias foram escolhidas para tratar adequadamente a relevância das informações, os fenômenos multidocumento e a distribuição de subtópicos dos documentos. Os resultados mostram que o uso de conhecimento semântico-discursivo para selecionar conteúdo produz sumários mais informativos.FAPESPCAPE

    NILC-Metrix : assessing the complexity of written and spoken language in Brazilian Portuguese

    Get PDF
    This paper presents and makes publicly available the NILC-Metrix, a computational system comprising 200 metrics proposed in studies on discourse, psycholinguistics, cognitive and computational linguistics, to assess textual complexity in Brazilian Portuguese (BP). These metrics are relevant for descriptive analysis and the creation of computational models and can be used to extract information from various linguistic levels of written and spoken language. The metrics in NILC-Metrix were developed during the last 13 years, starting in 2008 with Coh-Metrix-Port, a tool developed within the scope of the PorSimples project. Coh-Metrix-Port adapted some metrics to BP from the Coh-Metrix tool that computes metrics related to cohesion and coherence of texts in English. After the end of PorSimples in 2010, new metrics were added to the initial 48 metrics of Coh-Metrix-Port. Given the large number of metrics, we present them following an organisation similar to the metrics of Coh-Metrix v3.0 to facilitate comparisons made with metrics in Portuguese and English. In this paper, we illustrate the potential of NILC-Metrix by presenting three applications: (i) a descriptive analysis of the differences between children's film subtitles and texts written for Elementary School I and II (Final Years); (ii) a new predictor of textual complexity for the corpus of original and simplified texts of the PorSimples project; (iii) a complexity prediction model for school grades, using transcripts of children's story narratives told by teenagers. For each application, we evaluate which groups of metrics are more discriminative, showing their contribution for each task

    Robust question answering

    Get PDF
    Tese de Doutoramento em Informática na especialidade de Informática apresentada à Universidade AbertaUm sistema automático de pergunta resposta tem como objectivo dar uma resposta curta e precisa a uma pergunta formulada em língua natural, pesquisando uma base de conhecimento constituída por texto em língua natural. As fontes deste tipo de conhecimento são numerosas, dado que o texto escrito constitui uma forma preferencial de comunicação humana. A informação varia desde o tradicional texto editado, como é o caso das enciclopédias e dos artigos de jornal, até texto obtido através de modernos processos automáticos, como os reconhecedores automáticos de fala. O trabalho descrito no presente documento centra-se na língua Portuguesa e em sistemas de pergunta resposta de domínio aberto, o que significa que nem a pergunta nem a colecção de textos se restringem a uma área específica. Ambas as formas de texto escrito referidas no parágrafo anterior sãoo consideradas. Dado que a recuperação de informação é essencial num sistema de pergunta resposta, as técnicas mais actuais utilizadas nestas duas áreas neste tipo de sistema são objecto de um estudo aprofundado, tanto no que diz respeito aos seus aspectos mais práticos, como as suas motivações teóricas. Uma vez que um sistema nunca pode ser simples demais, desde que cumpra as especificações e produza resultados de elevada qualidade, é feita uma análise de custo benefício das técnicas passíveis de serem utilizadas, dando preferência a soluções simples. O principal objectivo do presente trabalho é assim estudar e desenvolver componentes inovadores para recuperação de informação e pergunta resposta, e a construção de um sistema de pergunta resposta completo, eficiente e robusto, capaz de competir com os sistemas mais avançados existentes actualmente. Uma opção importante tomada foi a utilização da língua Portuguesa, uma língua falada por um vasto número de pessoas, o que constitui um requisito importante para um sistema de pergunta resposta, quer pela existência de um volume importante de texto escrito disponível nesta língua, quer pelo número de possíveis utilizadores de uma aplicação específica para o Português. Há no entanto que ter em conta a existiência de menor número de recursos linguísticos para a língua Portuguesa, especialmente se comparada com a língua Inglesa, que é correntemente a "língua franca" da investigação científica. É precisamente este o motivo do presente documento estar escrito na língua Inglesa: permitir a participação nos trabalhos e a validação de resultados internacionalmente, sendo este facto totalmente compatível com a focalização do estudo e dos trabalhos na língua Portuguesa, alargando inclusivamente a sua divulgação para públicos não falantes da mesma. Na abordagem para a realização deste trabalho esta opção foi tomada em conjunto com uma outra que foi explorar as potencialidades da Wikipedia como recurso de base de QA, e que se revelou de extrema utilidade em várias vertentes do trabalho desenvolvido. As caracteristicas da Wikipedia que se consideraram mais relevantes foram o facto da informação estar disponível gratuitamente, e de resultar do esforço conjunto de um elevado número de utilizadores, o que viabiliza o desenvolvimento de aplicações para as quais seja util conhecimento enciclopédico e conhecimento de natureza ontológica. Ambas as vertentes foram utilizadas de forma inovadora no presente sistema. Apresenta-se neste trabalho o sistema de pergunta resposta, que foi desenvolvido de raiz, e que provou estar ao nível dos melhores sistemas de pergunta resposta, dado que foi submetido a avaliação em 2008 no Fórum de Avaliação Internacional CLEF (Cross Language Evaluation F orum) e se classificou em terceiro lugar entre os seis participantes concorrentes na categoria de sistemas de pergunta resposta em Português, onde era o único sistema a participar pela primeira vez. A taxa de primeiras respostas correctas foi de 32,5%. Este resultado permitiu obter o 5º lugar entre os 21 sistemas participantes nas 11 línguas disponíveis, sendo de referir o elevado nível dos sistemas concorrentes para o Português, dado que nos três primeiros lugares se classificaram dois sistemas para o Português, com o sistema da companhia Portuguesa Priberam ocupando a primeira posição com uma taxa de primeiras respostas correctas de 63,5% e o sistema da Universidade de Evora classificado em terceiro lugar, com uma taxa de primeiras respostas correctas de 46,5%. Os melhoramentos introduzidos após a análise dos resultados obtidos, que foi feita considerando quer as respostas do próprio sistema, quer as respostas produzidas pelos restantes sistemas, resultaram num considerável aumento da taxa de primeiras respostas correctas, para 50,5%, o que se seria correspondente a um segundo lugar nos resultados para o Português. O sistema desenvolvido é eficiente na indexação e resposta a perguntas, levando, na sua versão melhorada, apenas 4 horas para indexar toda a colecção de textos utilizada na tarefa do QA@CLEF 2008, e cerca de dois minutos a responder as 200 perguntas da tarefa, o que corresponde a uma média de 0,6 segundos para responder a uma pergunta. De referir que nenhum participante divulgou dados sobre a eficiência do sistema. Apenas se encontraram publicados dados de eficiência para um sistema que não participou na avaliação, que reporta valores médios de resposta por pergunta de 22 segundos. O sistema foi ainda testado num caso de estudo envolvendo perguntas efectuadas sobre o conteúdo de peças faladas. A base de textos que é pesquisada neste caso, consiste nos textos obtidos de forma automática a partir do reconhecimento automático da fala. Dado que a tarefa do Fórum de Avaliação CLEF para sistemas automáticos a responder a perguntas sobre transcrições automáticas (QAST - Question Answering over Speech Transcripts) não incluí a língua Portuguesa, os dados tiveram que ser todos recolhidos e organizados tendo sido criado um recurso que permite fazer testes de sistemas para o Português. Este recurso tem como base um corpo constituído pelos Telejornais da Rádio Televisão Portuguesa, RTP, nas suas edições da noite dos canais 1 e 2, correspondente aos meses de Junho a Setembro de 2008. Este corpo consiste em cerca de 180 horas de duração, transcritas automaticamente e enriquecidas com colocação automática de pontuação. Foi feito um conjunto de 100 perguntas, baseadas em transcrições manuais, e que foi utilizado para testar o sistema. O sistema demonstrou ser robusto, pois mesmo na presença de texto com palavras incorrectamente reconhecidas, ou pontuação colocada fora dos locais correctos, o sistema obteve 30% de taxa de primeiras respostas correctas, 42% de taxa de respostas correctas nas três primeiras respostas, e uma taxa de 60% de localização do excerto onde se encontra a resposta correcta. Este ultimo valor tem uma aplicação interessante de localização de um determinado tema num conjunto de diversas horas de vídeo, através de uma pergunta formulada em língua natural. Os resultados obtidos estão ao nível dos melhores reportados nas avaliações QAST do QA@CLEF. Dado que o principal objectivo traçado para o presente projecto de doutoramento, era estudar e desenvolver componentes inovadores de recuperação de informação e pergunta resposta que conduzissem a construção de um sistema de pergunta resposta para o Português, completo eficiente e robusto, e com resultados ao nível dos melhores sistemas, considera-se que o objectivo foi plenamente atingido. Relativamente ao uso do Português como língua de trabalho, confirma-se o facto de que os resultados obtidos para esta língua na área de sistemas de pergunta resposta estão ao melhor nível dos sistemas actuais para outras línguas, provando-se ser possível ultrapassar o problema de escassez de recursos. Os resultados validam também o conceito da existência de corpus onde coexistem textos com origem em distintas variantes de Português, nomeadamente Europeia e Brasileira, mas não só. No que diz respeito a língua falada, os resultados obtidos no caso de estudo indicam uma necessidade de tratamento específico para estas duas diferentes variantes do Português.A Question Answering (QA) system should provide a short and precise answer to a question in natural language, by searching a large knowledge base consisting of natural language text. The sources of the knowledge base are widely available, for written natural language text is a preferential form of human communication. The information ranges from the more traditional edited texts, for example encyclopaedias or newspaper articles, to text obtained by modern automatic processes, as automatic speech recognizers. The work described in the present document focuses on the Portuguese language and open domain question answering, meaning that neither the questions nor the texts are restricted to a speci c area, and it aims to address both types of written text. Since information retrieval is essential for a QA system, a careful analysis of the current state-of-the-art in information retrieval and question answering components is conducted. A complete, e cient and robust question answering system is developed in this thesis, consisting of new modules for information retrieval and question answering, that is competitive with current QA systems. The system was evaluated at the Portuguese monolingual task of QA@CLEF 2008 and achieved the 3rd place in 6 Portuguese participants and 5th place among the 21 participants of 11 languages. The system was also tested in Question Answering over Speech Transcripts (QAST), but outside the o cial evaluation QAST of QA@CLEF, since Portuguese was not among the available languages for this task. For that reason, an entire test environment consisting of a corpus of transcribed broadcast news and a matching question set was built in the scope of this work, so that experiments could be made. The system proved to be robust in the presence of automatically transcribed data, with results in line with the best reported at QAST

    Exercício do pensamento computacional no ensino superior em computação : investigação de uma abordagem baseada em desafios

    Get PDF
    Orientador: Dr. Roberto PereiraTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 11/04/2023Inclui referências: p. 73-86Área de concentração: Ciência da ComputaçãoResumo: Diretrizes curriculares da graduação em Computação recomendam que estudantes desenvolvam o Pensamento Computacional, mas não especificam quando e como essas habilidades devem ser desenvolvidas. A literatura na área também reconhece a importância e relevância do Pensamento Computacional, entretanto, ainda existem poucas evidências em torno de como apoiar o exercício dessas habilidades no ensino superior em Computação. Diante do exposto, esta pesquisa teve como objetivo investigar uma abordagem para apoiar o exercício do Pensamento Computacional no ensino superior em Computação. A abordagem Pense Computacionalmente foi criada com o propósito de apoiar professores e pesquisadores durante a concepção e condução de práticas educacionais que promovam o Pensamento Computacional por meio do processo de solução dos desafios que considera os quatro pilares do Pensamento Computacional. A abordagem tem como premissa que o Pensamento Computacional deve ser explicitamente exercitado no primeiro semestre da graduação de forma significativa, colaborativa, contextualizada, desplugada e baseada em desafios. Desenvolvemos a abordagem para ser utilizada ou adaptada para diferentes contextos educacionais, sendo composta por: um conjunto de orientações sobre como preparar e conduzir o exercício do Pensamento Computacional; um conjunto de sete práticas (desafios) para serem utilizadas ou inspirar a criação de novas; um método para guiar a condução da prática e instruir estudantes a proporem uma solução; e um artefato para apoiar a análise das soluções para coletar evidências do exercício do Pensamento Computacional. Para experimentarmos a abordagem e investigar as potencialidades e fragilidades, realizamos seis estudos de caso. Os estudos de caso foram conduzidos em ofertas diferentes da disciplina de Introdução à Ciência da Computação, dos cursos de Bacharelado em Ciência da Computação e Informática Biomédica da UFPR. Os resultados revelam que os desafios foram bem avaliados tanto pelos docentes quanto discentes, e foram muito bons em provocar o raciocínio e promover o interesse. Além disso, os resultados demonstram que estudantes exercitaram o Pensamento Computacional e desenvolveram a percepção do exercício dessas habilidades. Desse modo, atingimos o objetivo específico de investigar uma abordagem para apoiar o exercício do Pensamento Computacional no ensino superior em Computação. Como resultados desta pesquisa também podemos citar: contribuições conceituais: definição do Pensamento Computacional e suas habilidades no contexto do ensino superior em Computação; relação dos passos realizados durante a resolução de um desafio com as habilidades do Pensamento Computacional; e definição de como coletar evidências do exercício do Pensamento Computacional; contribuição metodológica: como conduzir atividades que foquem no exercício do Pensamento Computacional no ensino superior em Computação; e contribuição técnica: abordagem formatada em material didático.Abstract: The curriculum guidelines for Computing undergraduate courses point out that computational thinking should be a skill exercised by all students in those courses. However, they do not reveal when and how these skills should be developed. The literature in the area also recognizes the importance and relevance of Computational Thinking. There is still little evidence around how to support the exercise of these skills in higher education in Computing. Given the above, this research aimed to investigate an approach to support the exercise of Computational Thinking in higher education in Computing. The Pense Computacionalmente approach was created to support teachers and researchers during the design and conduct of educational practices that promote the exercise of computational thinking through the process of solving challenges considering the four pillars of computational thinking. The approach is based on the premise that Computational Thinking should be explicitly exercised in the first semester of undergraduate courses in a meaningful, collaborative, contextualized, unplugged, and challenge-based way. We developed the approach to be used or adapted for different educational contexts, comprising: a set of guidelines on how to prepare and conduct the exercise of Computational Thinking; a set of seven practices (challenges) to be used or to inspire the creation of new ones; a method to guide the conduct of the practice and instruct the students to propose a solution; and an artifact to support the analysis of solutions to collect evidence from the exercise of Computational Thinking. In order to try out the approach and investigate its strengths and weaknesses, we carried out six case studies. The case studies were conducted in different offerings of the subject Introduction to Computer Science, of the Bachelor's Degree in Computer Science and Biomedical Informatics at UFPR. The studies' results reveal that the challenges were well evaluated by both teachers and students, and were very good at provoking reasoning and promoting students' interest. In addition, the results demonstrate that students exercised Computational Thinking and developed the perception of exercising these skills. In this way, we achieved the specific objective of investigating an approach to support the exercise of Computational Thinking in higher education in Computing. As results of this research, we can also mention: conceptual contributions: the definition of Computational Thinking and its abilities in the context of higher education in Computing; the relationship of the steps taken during the challenge resolution with Computational Thinking skills; and the characterization of how to collect evidence of the exercise of the Computational Thinking; methodological contribution: how to conduct activities that focus on the exercise of Computational Thinking in higher education in Computing; and technical contribution: approach formatted in didactic material

    Multidisciplinary perspectives on Artificial Intelligence and the law

    Get PDF
    This open access book presents an interdisciplinary, multi-authored, edited collection of chapters on Artificial Intelligence (‘AI’) and the Law. AI technology has come to play a central role in the modern data economy. Through a combination of increased computing power, the growing availability of data and the advancement of algorithms, AI has now become an umbrella term for some of the most transformational technological breakthroughs of this age. The importance of AI stems from both the opportunities that it offers and the challenges that it entails. While AI applications hold the promise of economic growth and efficiency gains, they also create significant risks and uncertainty. The potential and perils of AI have thus come to dominate modern discussions of technology and ethics – and although AI was initially allowed to largely develop without guidelines or rules, few would deny that the law is set to play a fundamental role in shaping the future of AI. As the debate over AI is far from over, the need for rigorous analysis has never been greater. This book thus brings together contributors from different fields and backgrounds to explore how the law might provide answers to some of the most pressing questions raised by AI. An outcome of the Católica Research Centre for the Future of Law and its interdisciplinary working group on Law and Artificial Intelligence, it includes contributions by leading scholars in the fields of technology, ethics and the law.info:eu-repo/semantics/publishedVersio

    Expressões proverbiais do português - usos, variação formal e identificação automática

    Get PDF
    Os provérbios são uma expressão da cultura de uma sociedade e estão ligados às mais diversas áreas da experiência humana. Este tipo de expressões surge nos mais variados tipos de texto e desempenha diferentes funções retóricas no discurso, nele se integrando por meio de diferentes mecanismos, nem sempre fáceis de detetar formalmente. A interferência nos processos de coerência e de coesão discursivas, p. ex., a referência, e a sua variação formal, constituem sérios desafios ao processamento da linguagem natural (PLN), exigindo a sua identificação e delimitação precisas. Este projeto visa a identificação automática de provérbios portugueses (e as suas variantes) em textos, a fim de melhor caracterizar a sua utilização, tanto qualitativa como quantitativamente. Tal permitirá a definição de índices de frequência e, a partir destes, bem como de outros critérios, a determinação da disponibilidade lexical das unidades paremiológicas (o provérbio e as suas variantes). Estas informações são elementos relevantes a considerar, por exemplo, no desenvolvimento de instrumentos complementares de diagnóstico ou terapia de determinadas patologias da linguagem; ou mesmo para a construção de jogos didáticos para o ensino-aprendizagem de português, língua materna e língua não materna, eventualmente assistido por computador.Proverbs are an expression of the culture of a society and are connected to the most diverse areas of human experience. This type of expression occurs in the most diverse types of text and performs different rhetorical functions in the discourse, integrating it through several mechanisms, not always easy to detect formally. Interference in the processes of discursive coherence and cohesion, e.g. reference, and its formal variation, constitute serious challenges to Natural Language Processing (NLP), requiring its precise identification and delimitation. This project aims at the automatic identification of Portuguese proverbs (and their variants) in texts, to effectively characterize their use, both qualitatively and quantitatively. This will allow the definition of frequency indices and, from these, as well as other criteria, the determination of the lexical availability of the paremiological units (the proverb and its variants). This information is relevant elements to consider, for example, in the development of complementary diagnostic or therapeutic instruments for certain language pathologies; or even for the construction of didactic games for the teaching-learning of Portuguese, either as a Mother Tongue or as a Foreign Language, eventually assisted by computer
    corecore