9 research outputs found

    Análise de Métodos de Extração de Aspectos em Opiniões Regulares

    Get PDF
    Um sistema de Mineração de Opinião consiste de identificação, classificação e sumarização de descrições textuais de consumidores sobre produtos e serviços. Este trabalho apresenta uma análise comparativa entre as principais abordagens usadas na tarefa de Extração de Aspectos em comentários sobre produtos e serviços em web sites. Neste artigo foram implementadas adaptações de quatro métodos de extração de aspectos e avaliados em dois Corpora distintos: um em português e outro em inglês. Nos experimentos realizados foi observado que o método usando aprendizagem supervisionada (redes neurais convolucionais) obteve melhores resultados que os demais

    Processamento de linguagem natural e classificação de textos em sistemas modulares

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Sistemas modulares são implementados de forma que cada componente possa, individualmente, alcançar seus objetivos e contribuir para o correto funcionamento do sistema. A extração de dados textuais de fontes online pode ter alterações e depende de fornecer meios simples de modificar apenas módulos individuais responsáveis por estas tarefas, adequando-se às atualizações das fontes de dados sem afetar o resto do sistema. Os processos devem estar adequados à dinâmica do ambiente que estão disponíveis, visando escalabilidade e processamento de forma eficiente. O ambiente é estocástico e força os diferentes módulos a serem o mais completos e generalistas possível e seus componentes facilmente manuteníveis. A língua portuguesa também é um grande desafio, devido sua heterogeneidade, a diversidade de fontes e de modos de escrita, este trabalho busca encontrar padrões e metodologias de normalização e limpeza de dados que sirvam também a outros contextos e a outras línguas. Esse trabalho propõe uma arquitetura com diversos módulos que realizem tarefas de captura de dados textuais, fluxos de pré-processamento de dados, extração de entidades de textos em linguagem natural, estruturação e formatação dos dados, armazenamento destes dados de forma eficiente e resiliente, processamento de linguagem natural, classificação de textos em na língua portuguesa. Esta arquitetura se baseia em um fluxo completo que contempla a obtenção, processamento e análise dos dados. Este trabalho também visa aplicar suas metodologias sobre dados governamentais, buscando gerar insumos para a identificação de comportamento de cartéis de empresas em obras públicas por meio de técnicas de aprendizado de máquina e inteligência artificial. Experimentos indicam resultados positivos para a estruturação de uma arquitetura que possa extrair os dados e processá-los corretamente, trazendo os indícios necessários para uma análise de dados e oferecendo informações para aprofundar no campo de conhecimento de aplicação do processamento de linguagem natural em sistemas modulares e inteligentes.Modular systems are implemented in a way that each component can individually achieve its objective and contribute to the correct functioning of the whole system. Extraction of textual data from online sources can have changes and the responsible modules for it should be easy to modify, adapting to updates in the data sources without affecting the rest of the system. Processes must be appropriate to the dynamics of the environment, aiming for scalability and efficient processing. The environment is stochastic and forces the different modules to be as complete and general as possible and their components easily maintainable. The Portuguese language is also a great challenge, due to its heterogeneity, diversity of sources and different modes of writing, this work seeks to find standards and methodologies for normalization and data cleansing that also serve other contexts and other languages. This work proposes an architecture with several modules that perform tasks of textual data capture, data preprocessing workflows, extraction of natural language text entities, structuring and formatting of data, efficient and resilient data storage, processing of natural language, classification of texts in Portuguese language. This architecture is based on a complete workflow that contemplates obtaining, processing and analyzing the data. This work also aims to apply its methodologies on government data, seeking to generate inputs for the identification of behavior of cartels through techniques of machine learning and artificial intelligence. Experiments indicate positive results for the structuring of an architecture that can extract the data and process it correctly, bringing the necessary tools for a data analysis and providing information to deepen in the field of application knowledge of natural language processing into modular and intelligente systems

    Modelo Assistente para Classificação de Dados Provenientes de Redes Sociais: Um Estudo de Caso com Dados do Twitter

    Get PDF
    Desde seu surgimento as redes sociais virtuais como Twitter têm alcançado exorbitante quantidade de usuários em todo o mundo, tornando-se um ambiente de imensurável potencial para pesquisas sociais, econômicas, culturais e etc. Cada vez mais pesquisadores têm voltado sua atenção para a grande massa de dados gerada diariamente nesse meio. Entretanto, lidar com grandes quantidades de dados é uma tarefa custosa quando realizada manualmente. O objetivo desta pesquisa é propor um conjunto de ferramentas e metodologia tal que possa diminuir o esforço humano gasto na organização de grandes massas de dados provenientes de redes sociais. Para atingir tal objetivo é proposto um modelo de trabalho iterativo, que explora ao máximo o conhecimento existente em uma pequena porção de dados manualmente analisada por especialistas. O modelo de trabalho combina técnicas de recuperação de informação como algoritmos de classificação e agrupamento com objetivo de tornar o resultado do processo mais parecido ao que o especialista obteria caso o realiza-se completamente manualmente. O modelo proposto foi colocado a prova com uso de dois conjuntos de dados extraídos do Twitter e manualmente classificado muito antes da realização desta pesquisa. Os resultados mostraram-se promissores

    Cálculo de indicadores financeiros com auxílio do processamento de linguagem natural

    Get PDF
    TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.É possível dizer que o principal objetivo da inteligência artificial consiste em ajudar as pessoas, principalmente na execução de determinadas tarefas. Além disso, o processamento de linguagem natural pode ser considerado um domínio que abrange diversas áreas, sendo algumas delas pertencentes ao campo da inteligência artificial. Enquanto isso, o mercado financeiro está em constante crescimento nos últimos anos. Quem participa do mercado financeiro sabe que para se obter sucesso, um fator que ajuda bastante é a informação e sua qualidade. Com isso tudo associado, o presente trabalho busca juntar o processamento de linguagem natural ao mercado financeiro com a intenção de ajudar na execução de uma tarefa - saber indicadores financeiros de uma empresa. A associação desses dois campos é feita no trabalho ao propor um modelo que tem como objetivo calcular indicadores financeiros a partir de relatórios empresariais com o auxílio do processamento de linguagem natural.It is possible to say that the main purpose of artificial intelligence is to help people, especially in carrying out certain tasks. Furthermore, natural language processing can be considered a domain that connects several areas, some of which belong to the field of artificial intelligence. Meanwhile, the financial market has been constantly growing in recent years. Anyone who participates in the financial market knows that to be successful, a factor that helps a lot is information and its quality. With all this associated, the present work pursues to join natural language processing to the financial market with the intention of helping in the execution of a task - knowing a company's financial indicators. The association of these two fields is made in the work by proposing a model that aims to calculate financial indicators from business reports with the aid of natural language processing

    Robust question answering

    Get PDF
    Tese de Doutoramento em Informática na especialidade de Informática apresentada à Universidade AbertaUm sistema automático de pergunta resposta tem como objectivo dar uma resposta curta e precisa a uma pergunta formulada em língua natural, pesquisando uma base de conhecimento constituída por texto em língua natural. As fontes deste tipo de conhecimento são numerosas, dado que o texto escrito constitui uma forma preferencial de comunicação humana. A informação varia desde o tradicional texto editado, como é o caso das enciclopédias e dos artigos de jornal, até texto obtido através de modernos processos automáticos, como os reconhecedores automáticos de fala. O trabalho descrito no presente documento centra-se na língua Portuguesa e em sistemas de pergunta resposta de domínio aberto, o que significa que nem a pergunta nem a colecção de textos se restringem a uma área específica. Ambas as formas de texto escrito referidas no parágrafo anterior sãoo consideradas. Dado que a recuperação de informação é essencial num sistema de pergunta resposta, as técnicas mais actuais utilizadas nestas duas áreas neste tipo de sistema são objecto de um estudo aprofundado, tanto no que diz respeito aos seus aspectos mais práticos, como as suas motivações teóricas. Uma vez que um sistema nunca pode ser simples demais, desde que cumpra as especificações e produza resultados de elevada qualidade, é feita uma análise de custo benefício das técnicas passíveis de serem utilizadas, dando preferência a soluções simples. O principal objectivo do presente trabalho é assim estudar e desenvolver componentes inovadores para recuperação de informação e pergunta resposta, e a construção de um sistema de pergunta resposta completo, eficiente e robusto, capaz de competir com os sistemas mais avançados existentes actualmente. Uma opção importante tomada foi a utilização da língua Portuguesa, uma língua falada por um vasto número de pessoas, o que constitui um requisito importante para um sistema de pergunta resposta, quer pela existência de um volume importante de texto escrito disponível nesta língua, quer pelo número de possíveis utilizadores de uma aplicação específica para o Português. Há no entanto que ter em conta a existiência de menor número de recursos linguísticos para a língua Portuguesa, especialmente se comparada com a língua Inglesa, que é correntemente a "língua franca" da investigação científica. É precisamente este o motivo do presente documento estar escrito na língua Inglesa: permitir a participação nos trabalhos e a validação de resultados internacionalmente, sendo este facto totalmente compatível com a focalização do estudo e dos trabalhos na língua Portuguesa, alargando inclusivamente a sua divulgação para públicos não falantes da mesma. Na abordagem para a realização deste trabalho esta opção foi tomada em conjunto com uma outra que foi explorar as potencialidades da Wikipedia como recurso de base de QA, e que se revelou de extrema utilidade em várias vertentes do trabalho desenvolvido. As caracteristicas da Wikipedia que se consideraram mais relevantes foram o facto da informação estar disponível gratuitamente, e de resultar do esforço conjunto de um elevado número de utilizadores, o que viabiliza o desenvolvimento de aplicações para as quais seja util conhecimento enciclopédico e conhecimento de natureza ontológica. Ambas as vertentes foram utilizadas de forma inovadora no presente sistema. Apresenta-se neste trabalho o sistema de pergunta resposta, que foi desenvolvido de raiz, e que provou estar ao nível dos melhores sistemas de pergunta resposta, dado que foi submetido a avaliação em 2008 no Fórum de Avaliação Internacional CLEF (Cross Language Evaluation F orum) e se classificou em terceiro lugar entre os seis participantes concorrentes na categoria de sistemas de pergunta resposta em Português, onde era o único sistema a participar pela primeira vez. A taxa de primeiras respostas correctas foi de 32,5%. Este resultado permitiu obter o 5º lugar entre os 21 sistemas participantes nas 11 línguas disponíveis, sendo de referir o elevado nível dos sistemas concorrentes para o Português, dado que nos três primeiros lugares se classificaram dois sistemas para o Português, com o sistema da companhia Portuguesa Priberam ocupando a primeira posição com uma taxa de primeiras respostas correctas de 63,5% e o sistema da Universidade de Evora classificado em terceiro lugar, com uma taxa de primeiras respostas correctas de 46,5%. Os melhoramentos introduzidos após a análise dos resultados obtidos, que foi feita considerando quer as respostas do próprio sistema, quer as respostas produzidas pelos restantes sistemas, resultaram num considerável aumento da taxa de primeiras respostas correctas, para 50,5%, o que se seria correspondente a um segundo lugar nos resultados para o Português. O sistema desenvolvido é eficiente na indexação e resposta a perguntas, levando, na sua versão melhorada, apenas 4 horas para indexar toda a colecção de textos utilizada na tarefa do QA@CLEF 2008, e cerca de dois minutos a responder as 200 perguntas da tarefa, o que corresponde a uma média de 0,6 segundos para responder a uma pergunta. De referir que nenhum participante divulgou dados sobre a eficiência do sistema. Apenas se encontraram publicados dados de eficiência para um sistema que não participou na avaliação, que reporta valores médios de resposta por pergunta de 22 segundos. O sistema foi ainda testado num caso de estudo envolvendo perguntas efectuadas sobre o conteúdo de peças faladas. A base de textos que é pesquisada neste caso, consiste nos textos obtidos de forma automática a partir do reconhecimento automático da fala. Dado que a tarefa do Fórum de Avaliação CLEF para sistemas automáticos a responder a perguntas sobre transcrições automáticas (QAST - Question Answering over Speech Transcripts) não incluí a língua Portuguesa, os dados tiveram que ser todos recolhidos e organizados tendo sido criado um recurso que permite fazer testes de sistemas para o Português. Este recurso tem como base um corpo constituído pelos Telejornais da Rádio Televisão Portuguesa, RTP, nas suas edições da noite dos canais 1 e 2, correspondente aos meses de Junho a Setembro de 2008. Este corpo consiste em cerca de 180 horas de duração, transcritas automaticamente e enriquecidas com colocação automática de pontuação. Foi feito um conjunto de 100 perguntas, baseadas em transcrições manuais, e que foi utilizado para testar o sistema. O sistema demonstrou ser robusto, pois mesmo na presença de texto com palavras incorrectamente reconhecidas, ou pontuação colocada fora dos locais correctos, o sistema obteve 30% de taxa de primeiras respostas correctas, 42% de taxa de respostas correctas nas três primeiras respostas, e uma taxa de 60% de localização do excerto onde se encontra a resposta correcta. Este ultimo valor tem uma aplicação interessante de localização de um determinado tema num conjunto de diversas horas de vídeo, através de uma pergunta formulada em língua natural. Os resultados obtidos estão ao nível dos melhores reportados nas avaliações QAST do QA@CLEF. Dado que o principal objectivo traçado para o presente projecto de doutoramento, era estudar e desenvolver componentes inovadores de recuperação de informação e pergunta resposta que conduzissem a construção de um sistema de pergunta resposta para o Português, completo eficiente e robusto, e com resultados ao nível dos melhores sistemas, considera-se que o objectivo foi plenamente atingido. Relativamente ao uso do Português como língua de trabalho, confirma-se o facto de que os resultados obtidos para esta língua na área de sistemas de pergunta resposta estão ao melhor nível dos sistemas actuais para outras línguas, provando-se ser possível ultrapassar o problema de escassez de recursos. Os resultados validam também o conceito da existência de corpus onde coexistem textos com origem em distintas variantes de Português, nomeadamente Europeia e Brasileira, mas não só. No que diz respeito a língua falada, os resultados obtidos no caso de estudo indicam uma necessidade de tratamento específico para estas duas diferentes variantes do Português.A Question Answering (QA) system should provide a short and precise answer to a question in natural language, by searching a large knowledge base consisting of natural language text. The sources of the knowledge base are widely available, for written natural language text is a preferential form of human communication. The information ranges from the more traditional edited texts, for example encyclopaedias or newspaper articles, to text obtained by modern automatic processes, as automatic speech recognizers. The work described in the present document focuses on the Portuguese language and open domain question answering, meaning that neither the questions nor the texts are restricted to a speci c area, and it aims to address both types of written text. Since information retrieval is essential for a QA system, a careful analysis of the current state-of-the-art in information retrieval and question answering components is conducted. A complete, e cient and robust question answering system is developed in this thesis, consisting of new modules for information retrieval and question answering, that is competitive with current QA systems. The system was evaluated at the Portuguese monolingual task of QA@CLEF 2008 and achieved the 3rd place in 6 Portuguese participants and 5th place among the 21 participants of 11 languages. The system was also tested in Question Answering over Speech Transcripts (QAST), but outside the o cial evaluation QAST of QA@CLEF, since Portuguese was not among the available languages for this task. For that reason, an entire test environment consisting of a corpus of transcribed broadcast news and a matching question set was built in the scope of this work, so that experiments could be made. The system proved to be robust in the presence of automatically transcribed data, with results in line with the best reported at QAST

    Metodologia de categorização de textos a partir de documentos não rotulados utilizando um processo de resolução de anáforas

    Get PDF
    Com a constante expansão do conteúdo textual em formato eletrônico, surge a necessidade de organizar toda essa informação de forma operável. Desenvolveu-se, então, o processo de categorização de textos, visando facilitar a manipulação e recuperação da informação a partir da sua separação em categorias temáticas. Há diversas abordagens para a obtenção de um categorizador automático de textos e, dentre elas, o paradigma supervisionado é o mais tradicional. Apesar de a metodologia supervisionada apresentar uma precisão comparável àquela obtida por especialistas humanos, a obrigatoriedade de um corpus pré-classificado pode ser um fator limitador em certas aplicações. Nessas situações, pode ser aplicada uma solução semi ou não supervisionada, que não exige um conjunto de treino completo e bem formado para a construção de um categorizador; pelo contrário, são somente fornecidos documentos não rotulados para o método. Tanto o paradigma de aprendizado de máquina supervisionado, quanto os paradigmas semi e não supervisionados, usualmente constroem uma representação dos textos baseado somente na ocorrência dos termos, não levando em conta fatores semânticos. Entretanto, muitas características intrínsecas da linguagem natural podem tornar o processo ambíguo, e um desses fatores é a utilização de termos diversos para a referência de uma entidade já apresentada no texto. A esse fenômeno linguístico, dá-se o nome de anáfora. Esta dissertação propõe um método para a concepção de um categorizador não supervisionado, utilizando como base a Estrutura Nominal do Discurso (END), desenvolvida por Freitas com o propósito de resolução de anáforas, em [Freitas 2005]. Para isso, a técnica de bootstrapping para categorização é implementada, objetivando a obtenção da rotulação inicial para os documentos, a qual é utilizada para gerar um modelo de categorização através do paradigma supervisionado. Além de ter sido fundamentada a partir da END, a metodologia deste trabalho se beneficia do processo de resolução de anáforas de forma direta, utilizando os antecedentes identificados para as anáforas, durante a fase final da categorização. O presente trabalho apresenta detalhes sobre a metodologia proposta, explanando os algoritmos desenvolvidos, bem como as experimentações realizadas para a avaliação do método. Os resultados mostram que a utilização do processo de resolução de anáforas é benéfica para um sistema de categorização não supervisionada
    corecore