705 research outputs found

    Processamento de linguagem natural e classificação de textos em sistemas modulares

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Sistemas modulares são implementados de forma que cada componente possa, individualmente, alcançar seus objetivos e contribuir para o correto funcionamento do sistema. A extração de dados textuais de fontes online pode ter alterações e depende de fornecer meios simples de modificar apenas módulos individuais responsáveis por estas tarefas, adequando-se às atualizações das fontes de dados sem afetar o resto do sistema. Os processos devem estar adequados à dinâmica do ambiente que estão disponíveis, visando escalabilidade e processamento de forma eficiente. O ambiente é estocástico e força os diferentes módulos a serem o mais completos e generalistas possível e seus componentes facilmente manuteníveis. A língua portuguesa também é um grande desafio, devido sua heterogeneidade, a diversidade de fontes e de modos de escrita, este trabalho busca encontrar padrões e metodologias de normalização e limpeza de dados que sirvam também a outros contextos e a outras línguas. Esse trabalho propõe uma arquitetura com diversos módulos que realizem tarefas de captura de dados textuais, fluxos de pré-processamento de dados, extração de entidades de textos em linguagem natural, estruturação e formatação dos dados, armazenamento destes dados de forma eficiente e resiliente, processamento de linguagem natural, classificação de textos em na língua portuguesa. Esta arquitetura se baseia em um fluxo completo que contempla a obtenção, processamento e análise dos dados. Este trabalho também visa aplicar suas metodologias sobre dados governamentais, buscando gerar insumos para a identificação de comportamento de cartéis de empresas em obras públicas por meio de técnicas de aprendizado de máquina e inteligência artificial. Experimentos indicam resultados positivos para a estruturação de uma arquitetura que possa extrair os dados e processá-los corretamente, trazendo os indícios necessários para uma análise de dados e oferecendo informações para aprofundar no campo de conhecimento de aplicação do processamento de linguagem natural em sistemas modulares e inteligentes.Modular systems are implemented in a way that each component can individually achieve its objective and contribute to the correct functioning of the whole system. Extraction of textual data from online sources can have changes and the responsible modules for it should be easy to modify, adapting to updates in the data sources without affecting the rest of the system. Processes must be appropriate to the dynamics of the environment, aiming for scalability and efficient processing. The environment is stochastic and forces the different modules to be as complete and general as possible and their components easily maintainable. The Portuguese language is also a great challenge, due to its heterogeneity, diversity of sources and different modes of writing, this work seeks to find standards and methodologies for normalization and data cleansing that also serve other contexts and other languages. This work proposes an architecture with several modules that perform tasks of textual data capture, data preprocessing workflows, extraction of natural language text entities, structuring and formatting of data, efficient and resilient data storage, processing of natural language, classification of texts in Portuguese language. This architecture is based on a complete workflow that contemplates obtaining, processing and analyzing the data. This work also aims to apply its methodologies on government data, seeking to generate inputs for the identification of behavior of cartels through techniques of machine learning and artificial intelligence. Experiments indicate positive results for the structuring of an architecture that can extract the data and process it correctly, bringing the necessary tools for a data analysis and providing information to deepen in the field of application knowledge of natural language processing into modular and intelligente systems

    Conhecer os clientes para melhor vender: caso de estudo de uma empresa de transfer de turistas a operar na região do Algarve

    Get PDF
    O presente trabalho apresenta o caso prático de uma empresa de transporte de passageiros, a operar no setor do turismo internacional, na região do Algarve. Propõe-se a utilização de técnicas de Extração de Informação e "Text Mining" para encontrar padrões nos dados que permitam conhecer os clientes e ainda estudar o impacto do marketing digital na procura dos serviços da empresa. Foram utilizadas técnicas de "Text Mining" para extrair padrões dos comentários dos clientes de forma a condensar em tópicos e sumarizar o que estes pensam sobre o serviço. Recorreu-se ao histórico de transações, tendo sido aplicado algoritmos de aprendizagem não supervisionada para descobrir padrões nos dados que configuram segmentos de clientes. Os padrões revelados poderão ser utilizados em diferentes processos de tomada de decisão como por exemplo na criação de campanhas de marketing direcionadas para a criação de produtos específicos para cada segmento. Na produção de previsões de impacto do marketing digital foi utilizada uma combinação entre modelos de regressão múltipla e técnicas de análise de séries temporais, de forma a compreender os fatores que explicam a procura dos serviços da empresa e consequentemente a receita da empresa. Investigaram-se técnicas mais recentes de Aprendizagem Automática de forma a estabelecer uma comparação entre os métodos estatísticos tradicionais de análise de series temporais e os algoritmos de Aprendizagem Automática. Os resultados de previsão de procura de serviços foram satisfatórios, tendo sido identificado a sazonalidade como o fator que mais afeta a procura dos serviços.This work presents the case study of a passenger transport company, operating in the international tourism sector, in the Algarve region. It is proposed to use Data Mining and Text Mining techniques that allow to know the customers and also to find patterns in the data to study digital marketing's impact on demand for its services. Text Mining techniques were used to extract customer comments patterns to condense into topics and summarize what they think about the service. We used transaction history and applied unsupervised learning algorithms to discover patterns in the data that configure customer segments. The revealed patterns can be used in different decisionmaking processes, such as creating targeted marketing campaigns to create specific products for each segment. In producing digital marketing impact forecasts, a combination of multiple regression models and time-series analysis techniques were used to understand the factors that explain the demand for the company's services and, consequently, the company's revenue. More recent Machine Learning techniques were investigated to compare traditional statistical methods of time series analysis and Machine Learning algorithms. The service demand forecasting results were satisfactory, with seasonality having been identified as the factor that most affects the demand for services

    Análise e representação de fluxos de execução em assistentes virtuais

    Get PDF
    A tecnologia tem avançado colossalmente, assim como a sua aquisição. Existe atualmente uma vasta gama de oferta no mercado com diferentes tarefas e propósitos, onde os acessórios eletrónicos e os assistentes virtuais têm aumentado o seu número de vendas. Estes realçam-se pelo facto de terem um comportamento aproximado ao do humano. Desta forma, a análise e o estudo destes mesmos assistentes, assim como a aposta na interpretação semântica de texto, apresenta um trabalho e uma oferta mais complexa e de melhor qualidade, resultando numa melhor experiência para os utilizadores. Esta dissertação tem como principal objetivo o estudo, a análise e a implementação das melhores metodologias para o desenvolvimento de um assistente virtual, recorrendo a áreas como a Inteligência Artificial, Análise de Texto e Processamento de Linguagem Natural, Speech-to-Text e por fim, PlataformasWeb, de forma a apresentar as sugestões dadas para complementar o assistente.Technology has advanced colosally as well as its acquisition. Currently, there is a wide range of offers in the market with different tasks and purposes, where gadgets and virtual assistants have increased their number of sales. These are highlighted by the fact that they have an approximate behavior of the human. In this way, the analysis and the study of these same assistants, as well as the focus on semantic interpretation of text, presents a more complexe work and a higher quality, resulting in a better user experience. This dissertation has as main objective the study, analysis and implementation of the best methodologies for devoloping a virtual assistant, using areas such as Artificial Intelligence, Text Analysis and Natural Language Processing, and finally Web Plataforms, in order to present the suggestions to complement the assistant.Mestrado em Engenharia Informátic

    Segmentação não supervisionada de texturas baseada no algoritmo PPM

    Get PDF
    The image segmentation problem is present in various tasks such as remote sensing, object detection in robotics, industrial automation, content based image retrieval, security, and others related to medicine. When there is a set of pre-classified data, segmentation is called supervised. In the case of unsupervised segmentation, the classes are extracted directly from the data. Among the image properties, the texture is among those that provide the best results in the segmentation process. This work proposes a new unsupervised texture segmentation method that uses as the similarity measure between regions the bit rate obtained from compression using models, produced by the Prediction by Partial Matching (PPM) algorithm, extracted from them. To segment an image, it is split in rectangular adjacent regions and each of them is assigned to a different cluster. Then a greedy agglomerative clustering algorithm, in which the two closest clusters are grouped at every step, is applied until the number of remaining clusters is equal to the number of classes (supplied by the user). In order to improve the localization of the region boundaries, the image is then split in shorter regions, that are assigned to the cluster whose PPM model results in lower bit rate. To evaluate the proposed method, three image set were used: Trygve Randen, Timo Ojala and one created by the author of this work. By adjusting the method parameters for each image, the hit rate obtained was around 97% in most cases and 100% in several of them. The proposed method, whose main drawback is the complexity order, is robust to regions with different geometric shapes, grouping correctly even those that are disconnected.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorO problema da segmentação de imagens está presente em diversas tarefas como sensoriamento remoto, detecção de objetos em robótica, automação industrial, recuperação de imagens por conteúdo, segurança, e outras relacionadas à medicina. Quando há um conjunto de padrões pré-classificados, a segmentação é denominada supervisionada. No caso da segmentação não supervisionada, as classes são extraídas diretamente dos padrões. Dentre as propriedades de uma imagem, a textura está entre as que proporcionam os melhores resultados no processo de segmentação. Este trabalho propõe um novo método de segmentação não supervisionada de texturas que utiliza como medida de similaridade entre regiões as taxas de bits resultantes da compressão utilizando modelos produzidos pelo algoritmo Prediction by Partial Matching (PPM) extraídos das mesmas. Para segmentar uma imagem, a mesma é dividida em regiões retangulares adjacentes e cada uma delas é atribuída a um grupo distinto. Um algoritmo aglomerativo guloso, que une os dois grupos mais próximos em cada iteração, é aplicado até que o número de grupos seja igual ao número de classes (fornecido pelo usuário). Na etapa seguinte, cujo objetivo é refinar a localização das fronteiras, a imagem é dividida em regiões ainda menores, as quais são atribuídas ao agrupamento cujo modelo PPM resulta na taxa de bits mais baixa. Para avaliar o método proposto, foram utilizados três bancos de imagens: o de Trygve Randen, o de Timo Ojala e um criado pelo autor deste trabalho. Ajustando-se os parâmetros do método para cada imagem, a taxa de acerto obtida foi em torno de 97% na maioria dos casos e 100% em vários deles. O método proposto, cuja principal desvantagem é a ordem de complexidade, se mostrou robusto a regiões de diferentes formas geométricas, agrupando corretamente até mesmo as desconexas

    Classificação de Literatura Biomédica

    Get PDF
    Atualmente existe uma enorme quantidade de informação online de literatura biomédica. A PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23 milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação relevante. Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde os utilizadores podem extrair informação relevante e classificar documentos em repositórios locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na extração de informação, para além da segmentação de documentos, normalmente realizada em qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada, através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de aprendizagem supervisionada baseada em máquinas de vectores de suporte. Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a precisão e recall do classificador, o número de características extraídas no pré-processamento de documentos e o custo computacional de todo o processo de text mining. Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o processo e obter informação com um menor número de características sem que a qualidade do classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não necessitar da definição a priori do número de clusters é ideal para o tratamento de um conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu conteúdo, como é o caso de documentos obtidos através da PubMed

    Análise Automática de Melanoma Utilizando Imagens Dermatoscópicas

    Get PDF
    A melanoma é um tipo de cancro da pele que, apesar de ser o menos frequente, é o mais letal na espécie humana. O diagnóstico de melanoma é realizado por um médico especialista - o dermatologista - que observa a pele de um paciente ou a olho nu ou com recurso a um aparelho denominado dermatoscópio.Em 2012, a WCRFI (acrónimo para World Cancer Research Fund International; em português, Fundo Mundial de Pesquisa contra o Cancro) apresentou estatísticas em relação a todos os tipos de cancro ao nível mundial, mostrando que das 14,1 milhões de pessoas diagnosticadas com cancro, 232 mil pessoas estavam diagnosticadas com melanoma.Este tipo de cancro varia muito de aspeto, podendo apresentar-se como uma lesão pigmentada que vai escurecendo, desenvolvendo contornos irregulares ou cores variadas, ao longo do tempo, ou como um nódulo rosa ou encarnado. Pode ser visível em qualquer parte do corpo, sendo o peito e as pernas as zonas mais frequentes. Dado que a melanoma cresce rapidamente, este consegue-se estender para zonas mais internas do corpo, podendo afetar até certos órgãos - sendo esta a razão para que o seu tratamento seja o mais rápido possível.Esta dissertação tem como objetivo a identificação automática de melanoma em imagens dermatoscópicas de maneira a que o dermatologista possa realizar o tratamento sobre a zona afetada o mais breve possível. Por detrás do algoritmo de identificação, existe um algoritmo de aprendizagem automática que, com base em imagens dermatoscópicas com vários tipos de cancro da pele, contribui para identificar a melanoma eficaz e eficientemente.Para a construção do algoritmo inteligente, um modelo de características, extraídas através de métodos de processamento de imagem, é desenvolvido através de métodos de aprendizagem automática (como árvores de decisão, máquinas de suporte vetorial e redes neuronais artificiais). Estas características, juntamente com características próprias do paciente, como a idade ou o sexo, e a identificação de melanoma ou não permitem treinar o algoritmo de aprendizagem. Posto isto, o algoritmo irá prever que classificação atribuir a um novo exame a querer avaliar, classificando-o como a existência de melanoma ou não.Este algoritmo foi desenvolvido e testado em dados fornecidos e controlados de um concurso de programação denominado ISIC 2017: Skin Lesion Analysis Towards Melanoma Detection.Melanoma is a kind of skin cancer that, despite being less frequent, it is the most lethal to human kind. It's diagnosis is done by a specialized doctor - a dermatologist - who observes the patient skin by its own eyes or using a device called dermatoscope.In 2012, WCRFI (acromion for World Cancer Research Fund International) reported statistics for all types of cancer worldwide, showing that of the 14.1 million people diagnosed with cancer, 232.000 people were diagnosed with melanoma.This type of cancer varies in appearance a lot and may present as a pigmented lesion that gets darker, developing irregular contours or variated colors, over time, or as a pink or red nodule. It can be visible on any part of the body, with the chest and legs being the most frequent zones. As melanoma grows, it can spread to the innermost areas of the body, which can affect even certain organs - therefore treatment should be as fast as possible.This dissertation goal is to give an automatic identification of melanoma in dermatoscopy images so the dermatologist can perform the treatment on the affected area as soon as possible. Behind the identification algorithm, there is a machine learning algorithm that, based on dermatoscopy images with different types of skin cancer, helps to identify melanoma effectively and efficiently.On building the algorithm, a features' model (extracted by image processing methods) is developed by machine learning methods (like decision trees, support vector machines and artificial neural networks). These characteristics along with patient's own characteristics such as age or sex and the identification of melanoma (or not) allow to train the algorithm. In this way the algorithm will predict which classification to assign to a new exam to evaluate, classifying it as the existence of melanoma or not.This algorithm was developed and tested using controlled data given by the contest ISIC 2017: Skin Lesion Analysis Towards Melanoma Detection

    Classificação da ocupação do solo através da segmentação de uma imagem de satélite de alta resolução

    Get PDF
    Este caso de estudo tem como objetivo demonstrar a utilidade da utilização de imagens de satélite de alta resolução para a produção de cartografia temática em áreas urbanas, bem como, experimentar a extracção de elementos de uma imagem de alta resolução a partir de protocolos de segmentação, aplicando uma abordagem orientada por regiões, e recorrendo a dados de uma cena do satélite WorldView2 com as suas novas 4 bandas adicionais. Definiu-se uma nomenclatura de ocupação de solo com base na fotointerpretação da imagem, criou-se uma legenda hierarquizada por 3 níveis de desagregação. No primeiro nível incluiu-se sete classes, no segundo nível as classes foram classificadas pelo nome dos objetos identificados na fotointerpretação, e o terceiro nível foram classificados pelas características dos objetos definidos no nível anterior. Foram criados segmentos de treino através do algoritmo da segmentação, que tem como função criar segmentos vetoriais com base na similaridade espectral e no valor espectral dos conjuntos dos pixéis vizinhos, testou-se varios parâmetros de segmentação de modo a obter o nível de segmentação que visivelmente na imagem se aproximasse mais aos objetos reconhecidos, para assim se gerar as assinaturas espectrais dos objetos representados pela segmentação, procedendo-se à classificação de ocupação de solo baseada nos segmentos

    Desafios e avanços na recuperação automática da informação audiovisual

    Get PDF
    Exposição sobre processos e métodos utilizados para a indexação e recuperação textual da informação semântica em vídeo, tendo como base a identificação e classificação do seu conteúdo visual e sonoro. Palavras-chave: Sistemas de Recuperação da Informação Visual. Indexação de vídeos. Recuperação do conteúdo audiovisual. Challenges and advancements in automatic retrieval of audiovisual information Abstract Presentation of  methods and processes applied to classification and retrieval of semantic information of video programs, through identification of sound and visual content. Keywords: Content Based Image Retrieval. Video indexing. Multimedia content retrieval
    corecore