705 research outputs found
Processamento de linguagem natural e classificação de textos em sistemas modulares
Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Sistemas modulares são implementados de forma que cada componente possa, individualmente, alcançar seus objetivos e contribuir para o correto funcionamento do sistema. A extração de dados textuais de fontes online pode ter alterações e depende de fornecer meios simples de modificar apenas módulos individuais responsáveis por estas tarefas, adequando-se às atualizações das fontes de dados sem afetar o resto do sistema. Os processos devem estar adequados à dinâmica do ambiente que estão disponíveis, visando escalabilidade e processamento de forma eficiente. O ambiente é estocástico e força os diferentes módulos a serem o mais completos e generalistas possível e seus componentes facilmente manuteníveis. A língua portuguesa também é um grande desafio, devido sua heterogeneidade, a diversidade de fontes e de modos de escrita, este trabalho busca encontrar padrões e metodologias de normalização e limpeza de dados que sirvam também a outros contextos e a outras línguas. Esse trabalho propõe uma arquitetura com diversos módulos que realizem tarefas de captura de dados textuais, fluxos de pré-processamento de dados, extração de entidades de textos em linguagem natural, estruturação e formatação dos dados, armazenamento destes dados de forma eficiente e resiliente, processamento de linguagem natural, classificação de textos em na língua portuguesa. Esta arquitetura se baseia em um fluxo completo que contempla a obtenção, processamento e análise dos dados. Este trabalho também visa aplicar suas metodologias sobre dados governamentais, buscando gerar insumos para a identificação de comportamento de cartéis de empresas em obras públicas por meio de técnicas de aprendizado de máquina e inteligência artificial. Experimentos indicam resultados positivos para a estruturação de uma arquitetura que possa extrair os dados e processá-los corretamente, trazendo os indícios necessários para uma análise de dados e oferecendo informações para aprofundar no campo de conhecimento de aplicação do processamento de linguagem natural em sistemas modulares e inteligentes.Modular systems are implemented in a way that each component can individually achieve its objective and contribute to the correct functioning of the whole system. Extraction of textual data from online sources can have changes and the responsible modules for it should be easy to modify, adapting to updates in the data sources without affecting the rest of the system. Processes must be appropriate to the dynamics of the environment, aiming for scalability and efficient processing. The environment is stochastic and forces the different modules to be as complete and general as possible and their components easily maintainable. The Portuguese language is also a great challenge, due to its heterogeneity, diversity of sources and different modes of writing, this work seeks to find standards and methodologies for normalization and data cleansing that also serve other contexts and other languages. This work proposes an architecture with several modules that perform tasks of textual data capture, data preprocessing workflows, extraction of natural language text entities, structuring and formatting of data, efficient and resilient data storage, processing of natural language, classification of texts in Portuguese language. This architecture is based on a complete workflow that contemplates obtaining, processing and analyzing the data. This work also aims to apply its methodologies on government data, seeking to generate inputs for the identification of behavior of cartels through techniques of machine learning and artificial intelligence. Experiments indicate positive results for the structuring of an architecture that can extract the data and process it correctly, bringing the necessary tools for a data analysis and providing information to deepen in the field of application knowledge of natural language processing into modular and intelligente systems
Conhecer os clientes para melhor vender: caso de estudo de uma empresa de transfer de turistas a operar na região do Algarve
O presente trabalho apresenta o caso prático de uma empresa de transporte de
passageiros, a operar no setor do turismo internacional, na região do Algarve. Propõe-se
a utilização de técnicas de Extração de Informação e "Text Mining" para encontrar padrões
nos dados que permitam conhecer os clientes e ainda estudar o impacto do marketing
digital na procura dos serviços da empresa.
Foram utilizadas técnicas de "Text Mining" para extrair padrões dos comentários dos
clientes de forma a condensar em tópicos e sumarizar o que estes pensam sobre o serviço.
Recorreu-se ao histórico de transações, tendo sido aplicado algoritmos de aprendizagem
não supervisionada para descobrir padrões nos dados que configuram segmentos de
clientes. Os padrões revelados poderão ser utilizados em diferentes processos de tomada
de decisão como por exemplo na criação de campanhas de marketing direcionadas para a
criação de produtos específicos para cada segmento.
Na produção de previsões de impacto do marketing digital foi utilizada uma
combinação entre modelos de regressão múltipla e técnicas de análise de séries temporais,
de forma a compreender os fatores que explicam a procura dos serviços da empresa e
consequentemente a receita da empresa. Investigaram-se técnicas mais recentes de
Aprendizagem Automática de forma a estabelecer uma comparação entre os métodos
estatísticos tradicionais de análise de series temporais e os algoritmos de Aprendizagem
Automática. Os resultados de previsão de procura de serviços foram satisfatórios, tendo
sido identificado a sazonalidade como o fator que mais afeta a procura dos serviços.This work presents the case study of a passenger transport company, operating in the
international tourism sector, in the Algarve region. It is proposed to use Data Mining and
Text Mining techniques that allow to know the customers and also to find patterns in the
data to study digital marketing's impact on demand for its services.
Text Mining techniques were used to extract customer comments patterns to condense
into topics and summarize what they think about the service. We used transaction history
and applied unsupervised learning algorithms to discover patterns in the data that
configure customer segments. The revealed patterns can be used in different decisionmaking processes, such as creating targeted marketing campaigns to create specific
products for each segment.
In producing digital marketing impact forecasts, a combination of multiple regression
models and time-series analysis techniques were used to understand the factors that
explain the demand for the company's services and, consequently, the company's revenue.
More recent Machine Learning techniques were investigated to compare traditional
statistical methods of time series analysis and Machine Learning algorithms. The service
demand forecasting results were satisfactory, with seasonality having been identified as
the factor that most affects the demand for services
Análise e representação de fluxos de execução em assistentes virtuais
A tecnologia tem avançado colossalmente, assim como a sua aquisição.
Existe atualmente uma vasta gama de oferta no mercado com diferentes tarefas
e propósitos, onde os acessórios eletrónicos e os assistentes virtuais
têm aumentado o seu número de vendas. Estes realçam-se pelo facto de terem
um comportamento aproximado ao do humano. Desta forma, a análise
e o estudo destes mesmos assistentes, assim como a aposta na interpretação
semântica de texto, apresenta um trabalho e uma oferta mais complexa
e de melhor qualidade, resultando numa melhor experiência para os utilizadores.
Esta dissertação tem como principal objetivo o estudo, a análise e a
implementação das melhores metodologias para o desenvolvimento de um
assistente virtual, recorrendo a áreas como a Inteligência Artificial, Análise de
Texto e Processamento de Linguagem Natural, Speech-to-Text e por fim, PlataformasWeb,
de forma a apresentar as sugestões dadas para complementar
o assistente.Technology has advanced colosally as well as its acquisition. Currently, there
is a wide range of offers in the market with different tasks and purposes, where
gadgets and virtual assistants have increased their number of sales. These
are highlighted by the fact that they have an approximate behavior of the human.
In this way, the analysis and the study of these same assistants, as
well as the focus on semantic interpretation of text, presents a more complexe
work and a higher quality, resulting in a better user experience. This dissertation
has as main objective the study, analysis and implementation of the best
methodologies for devoloping a virtual assistant, using areas such as Artificial
Intelligence, Text Analysis and Natural Language Processing, and finally Web
Plataforms, in order to present the suggestions to complement the assistant.Mestrado em Engenharia Informátic
Segmentação não supervisionada de texturas baseada no algoritmo PPM
The image segmentation problem is present in various tasks such as remote sensing,
object detection in robotics, industrial automation, content based image retrieval, security, and
others related to medicine. When there is a set of pre-classified data, segmentation is called
supervised. In the case of unsupervised segmentation, the classes are extracted directly from the
data. Among the image properties, the texture is among those that provide the best results in the
segmentation process. This work proposes a new unsupervised texture segmentation method that
uses as the similarity measure between regions the bit rate obtained from compression using
models, produced by the Prediction by Partial Matching (PPM) algorithm, extracted from them.
To segment an image, it is split in rectangular adjacent regions and each of them is assigned to a
different cluster. Then a greedy agglomerative clustering algorithm, in which the two closest
clusters are grouped at every step, is applied until the number of remaining clusters is equal to the
number of classes (supplied by the user). In order to improve the localization of the region
boundaries, the image is then split in shorter regions, that are assigned to the cluster whose PPM
model results in lower bit rate. To evaluate the proposed method, three image set were used:
Trygve Randen, Timo Ojala and one created by the author of this work. By adjusting the method
parameters for each image, the hit rate obtained was around 97% in most cases and 100% in
several of them. The proposed method, whose main drawback is the complexity order, is robust
to regions with different geometric shapes, grouping correctly even those that are disconnected.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorO problema da segmentação de imagens está presente em diversas tarefas como
sensoriamento remoto, detecção de objetos em robótica, automação industrial, recuperação de
imagens por conteúdo, segurança, e outras relacionadas à medicina. Quando há um conjunto de
padrões pré-classificados, a segmentação é denominada supervisionada. No caso da segmentação
não supervisionada, as classes são extraídas diretamente dos padrões. Dentre as propriedades de
uma imagem, a textura está entre as que proporcionam os melhores resultados no processo de
segmentação. Este trabalho propõe um novo método de segmentação não supervisionada de
texturas que utiliza como medida de similaridade entre regiões as taxas de bits resultantes da
compressão utilizando modelos produzidos pelo algoritmo Prediction by Partial Matching (PPM)
extraídos das mesmas. Para segmentar uma imagem, a mesma é dividida em regiões retangulares
adjacentes e cada uma delas é atribuída a um grupo distinto. Um algoritmo aglomerativo guloso,
que une os dois grupos mais próximos em cada iteração, é aplicado até que o número de grupos
seja igual ao número de classes (fornecido pelo usuário). Na etapa seguinte, cujo objetivo é
refinar a localização das fronteiras, a imagem é dividida em regiões ainda menores, as quais são
atribuídas ao agrupamento cujo modelo PPM resulta na taxa de bits mais baixa. Para avaliar o
método proposto, foram utilizados três bancos de imagens: o de Trygve Randen, o de Timo Ojala
e um criado pelo autor deste trabalho. Ajustando-se os parâmetros do método para cada imagem,
a taxa de acerto obtida foi em torno de 97% na maioria dos casos e 100% em vários deles. O
método proposto, cuja principal desvantagem é a ordem de complexidade, se mostrou robusto a
regiões de diferentes formas geométricas, agrupando corretamente até mesmo as desconexas
Classificação de Literatura Biomédica
Atualmente existe uma enorme quantidade de informação online de literatura biomédica. A
PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23
milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível
torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação
relevante.
Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde
os utilizadores podem extrair informação relevante e classificar documentos em repositórios
locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na
extração de informação, para além da segmentação de documentos, normalmente realizada em
qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma
extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene
Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste
caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para
a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada,
através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de
aprendizagem supervisionada baseada em máquinas de vectores de suporte.
Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do
problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados
pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a
precisão e recall do classificador, o número de características extraídas no pré-processamento
de documentos e o custo computacional de todo o processo de text mining.
Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte
conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não
supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento
de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o
processo e obter informação com um menor número de características sem que a qualidade do
classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não
necessitar da definição a priori do número de clusters é ideal para o tratamento de um
conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu
conteúdo, como é o caso de documentos obtidos através da PubMed
Análise Automática de Melanoma Utilizando Imagens Dermatoscópicas
A melanoma é um tipo de cancro da pele que, apesar de ser o menos frequente, é o mais letal na espécie humana. O diagnóstico de melanoma é realizado por um médico especialista - o dermatologista - que observa a pele de um paciente ou a olho nu ou com recurso a um aparelho denominado dermatoscópio.Em 2012, a WCRFI (acrónimo para World Cancer Research Fund International; em português, Fundo Mundial de Pesquisa contra o Cancro) apresentou estatísticas em relação a todos os tipos de cancro ao nível mundial, mostrando que das 14,1 milhões de pessoas diagnosticadas com cancro, 232 mil pessoas estavam diagnosticadas com melanoma.Este tipo de cancro varia muito de aspeto, podendo apresentar-se como uma lesão pigmentada que vai escurecendo, desenvolvendo contornos irregulares ou cores variadas, ao longo do tempo, ou como um nódulo rosa ou encarnado. Pode ser visível em qualquer parte do corpo, sendo o peito e as pernas as zonas mais frequentes. Dado que a melanoma cresce rapidamente, este consegue-se estender para zonas mais internas do corpo, podendo afetar até certos órgãos - sendo esta a razão para que o seu tratamento seja o mais rápido possível.Esta dissertação tem como objetivo a identificação automática de melanoma em imagens dermatoscópicas de maneira a que o dermatologista possa realizar o tratamento sobre a zona afetada o mais breve possível. Por detrás do algoritmo de identificação, existe um algoritmo de aprendizagem automática que, com base em imagens dermatoscópicas com vários tipos de cancro da pele, contribui para identificar a melanoma eficaz e eficientemente.Para a construção do algoritmo inteligente, um modelo de características, extraídas através de métodos de processamento de imagem, é desenvolvido através de métodos de aprendizagem automática (como árvores de decisão, máquinas de suporte vetorial e redes neuronais artificiais). Estas características, juntamente com características próprias do paciente, como a idade ou o sexo, e a identificação de melanoma ou não permitem treinar o algoritmo de aprendizagem. Posto isto, o algoritmo irá prever que classificação atribuir a um novo exame a querer avaliar, classificando-o como a existência de melanoma ou não.Este algoritmo foi desenvolvido e testado em dados fornecidos e controlados de um concurso de programação denominado ISIC 2017: Skin Lesion Analysis Towards Melanoma Detection.Melanoma is a kind of skin cancer that, despite being less frequent, it is the most lethal to human kind. It's diagnosis is done by a specialized doctor - a dermatologist - who observes the patient skin by its own eyes or using a device called dermatoscope.In 2012, WCRFI (acromion for World Cancer Research Fund International) reported statistics for all types of cancer worldwide, showing that of the 14.1 million people diagnosed with cancer, 232.000 people were diagnosed with melanoma.This type of cancer varies in appearance a lot and may present as a pigmented lesion that gets darker, developing irregular contours or variated colors, over time, or as a pink or red nodule. It can be visible on any part of the body, with the chest and legs being the most frequent zones. As melanoma grows, it can spread to the innermost areas of the body, which can affect even certain organs - therefore treatment should be as fast as possible.This dissertation goal is to give an automatic identification of melanoma in dermatoscopy images so the dermatologist can perform the treatment on the affected area as soon as possible. Behind the identification algorithm, there is a machine learning algorithm that, based on dermatoscopy images with different types of skin cancer, helps to identify melanoma effectively and efficiently.On building the algorithm, a features' model (extracted by image processing methods) is developed by machine learning methods (like decision trees, support vector machines and artificial neural networks). These characteristics along with patient's own characteristics such as age or sex and the identification of melanoma (or not) allow to train the algorithm. In this way the algorithm will predict which classification to assign to a new exam to evaluate, classifying it as the existence of melanoma or not.This algorithm was developed and tested using controlled data given by the contest ISIC 2017: Skin Lesion Analysis Towards Melanoma Detection
Classificação da ocupação do solo através da segmentação de uma imagem de satélite de alta resolução
Este caso de estudo tem como objetivo demonstrar a utilidade da utilização de imagens de satélite de alta resolução para a produção de cartografia temática em áreas urbanas, bem como, experimentar a extracção de elementos de uma imagem de alta resolução a partir de protocolos de segmentação, aplicando uma abordagem orientada por regiões, e recorrendo a dados de uma cena do satélite WorldView2 com as suas novas 4 bandas adicionais.
Definiu-se uma nomenclatura de ocupação de solo com base na fotointerpretação da imagem, criou-se uma legenda hierarquizada por 3 níveis de desagregação. No primeiro nível incluiu-se sete classes, no segundo nível as classes foram classificadas pelo nome dos objetos identificados na fotointerpretação, e o terceiro nível foram classificados pelas características dos objetos definidos no nível anterior.
Foram criados segmentos de treino através do algoritmo da segmentação, que tem como função criar segmentos vetoriais com base na similaridade espectral e no valor espectral dos conjuntos dos pixéis vizinhos, testou-se varios parâmetros de segmentação de modo a obter o nível de segmentação que visivelmente na imagem se aproximasse mais aos objetos reconhecidos, para assim se gerar as assinaturas espectrais dos objetos representados pela segmentação, procedendo-se à classificação de ocupação de solo baseada nos segmentos
Desafios e avanços na recuperação automática da informação audiovisual
Exposição sobre processos e métodos utilizados para a indexação e recuperação textual da informação semântica em vídeo, tendo como base a identificação e classificação do seu conteúdo visual e sonoro.
Palavras-chave: Sistemas de Recuperação da Informação Visual. Indexação de vídeos. Recuperação do conteúdo audiovisual.
Challenges and advancements in automatic retrieval of audiovisual information
Abstract
Presentation of methods and processes applied to classification and retrieval of semantic information of video programs, through identification of sound and visual content.
Keywords: Content Based Image Retrieval. Video indexing. Multimedia content retrieval
- …