3 research outputs found

    Classificação Automática de Textos por Período Literário Utilizando Compressão de Dados Através do PPM-C

    No full text
    Métodos e técnicas para compressão de dados têm sido utilizados para o reconhecimento de padrões, incluindo a classificação automática de textos. A eficiência do método Prediction by Partial Matching (PPM) como classificador textual já foi comprovada em diversos trabalhos, entre eles a atribuição de autoria para textos em português. As classes utilizadas no processo de classificação não precisam ficar restringidas a apenas um autor. Ao incluir dois ou mais autores numa mesma classe pode-se definir um estilo literário. Esse trabalho objetiva a aplicação do modelo estatístico PPM-C para a classificação de textos dos períodos literários da literatura brasileira

    Segmentação não supervisionada de texturas baseada no algoritmo PPM

    Get PDF
    The image segmentation problem is present in various tasks such as remote sensing, object detection in robotics, industrial automation, content based image retrieval, security, and others related to medicine. When there is a set of pre-classified data, segmentation is called supervised. In the case of unsupervised segmentation, the classes are extracted directly from the data. Among the image properties, the texture is among those that provide the best results in the segmentation process. This work proposes a new unsupervised texture segmentation method that uses as the similarity measure between regions the bit rate obtained from compression using models, produced by the Prediction by Partial Matching (PPM) algorithm, extracted from them. To segment an image, it is split in rectangular adjacent regions and each of them is assigned to a different cluster. Then a greedy agglomerative clustering algorithm, in which the two closest clusters are grouped at every step, is applied until the number of remaining clusters is equal to the number of classes (supplied by the user). In order to improve the localization of the region boundaries, the image is then split in shorter regions, that are assigned to the cluster whose PPM model results in lower bit rate. To evaluate the proposed method, three image set were used: Trygve Randen, Timo Ojala and one created by the author of this work. By adjusting the method parameters for each image, the hit rate obtained was around 97% in most cases and 100% in several of them. The proposed method, whose main drawback is the complexity order, is robust to regions with different geometric shapes, grouping correctly even those that are disconnected.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorO problema da segmentação de imagens está presente em diversas tarefas como sensoriamento remoto, detecção de objetos em robótica, automação industrial, recuperação de imagens por conteúdo, segurança, e outras relacionadas à medicina. Quando há um conjunto de padrões pré-classificados, a segmentação é denominada supervisionada. No caso da segmentação não supervisionada, as classes são extraídas diretamente dos padrões. Dentre as propriedades de uma imagem, a textura está entre as que proporcionam os melhores resultados no processo de segmentação. Este trabalho propõe um novo método de segmentação não supervisionada de texturas que utiliza como medida de similaridade entre regiões as taxas de bits resultantes da compressão utilizando modelos produzidos pelo algoritmo Prediction by Partial Matching (PPM) extraídos das mesmas. Para segmentar uma imagem, a mesma é dividida em regiões retangulares adjacentes e cada uma delas é atribuída a um grupo distinto. Um algoritmo aglomerativo guloso, que une os dois grupos mais próximos em cada iteração, é aplicado até que o número de grupos seja igual ao número de classes (fornecido pelo usuário). Na etapa seguinte, cujo objetivo é refinar a localização das fronteiras, a imagem é dividida em regiões ainda menores, as quais são atribuídas ao agrupamento cujo modelo PPM resulta na taxa de bits mais baixa. Para avaliar o método proposto, foram utilizados três bancos de imagens: o de Trygve Randen, o de Timo Ojala e um criado pelo autor deste trabalho. Ajustando-se os parâmetros do método para cada imagem, a taxa de acerto obtida foi em torno de 97% na maioria dos casos e 100% em vários deles. O método proposto, cuja principal desvantagem é a ordem de complexidade, se mostrou robusto a regiões de diferentes formas geométricas, agrupando corretamente até mesmo as desconexas

    Editorial

    No full text
    Este é o terceiro número da Linguamática e o primeiro de 2010, um número que termina o percurso da revista ao longo de um ano. Trata-se de uma edição especial com artigos seleccionados do Sétimo Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL'09), o que demonstra o interesse da nossa comunidade científica da Linguamática. Todos os artigos deste número especial são publicados na secção dedicada aos Artigos de Investigação. Agradecemos a colaboração dos autores seleccionados e dos organizadores do STIL na elaboração deste número da Linguamática. Finalmente, queremos marcar mais uma etapa na revista celebrando a indexação  da Linguamática em catálogos de bibliotecas digitais e em índices públicos de revistas electrónicas, entre os quais salientamos o Latindex — Sistema Regional de informacióon en Línea para Revistas Cientíï¬cas de América Latina, el Caribe, España y Portugal —, o DOAJ — Directory of Open Access Journals —, o Google Scholar e o The Linguist List.   Alberto Simões José João Almeida Xavier Gómez Guinovart   Uma visão geral dos avanços noSimpósio de Tecnologia da Informação e Linguagem Humana Esta edição especial da Linguamática contém uma seleção dos artigos apresentados no 7º Simpósio de Tecnologia da Informação e Linguagem Humana (STIL 2009), que ocorreu de 8 a 11 de setembro de 2009 na Universidade de São Paulo (campus São Carlos), Brasil (http://www.nilc.icmc.usp.br/til/stil2009_English). O STIL é o evento anual de Tecnologia da Linguagem apoiado pela Sociedade Brasileira de Computação (SBC) e pela Comissão Especial de Processamento de Linguagem Natural. Este evento tem um caráter multidisciplinar, abrangendo um amplo espectro de disciplinas relacionadas à Tecnologia da Linguagem Humana, tais como Lingüística, Ciências da Computação, Psicologia, Ciência da Informação, entre outros, e tem por objetivo reunir participantes acadêmicos e da indústria que atuam nessas áreas. Os tópicos de interesse anunciados no Call for Papers estiveram centrados em torno dos trabalhos em tecnologia da linguagem humana em geral realizados a partir de perspectivas tão diversas como Ciências da Computação, Lingüística e Ciência da Informação, incluindo entre outros a mineração de texto, processamento da linguagem escrita e falada, a terminologia, lexicologia e lexicografia, modelagem e gestão de conhecimento e geração de linguagem natural. Foram submetidos 60 artigos longos e 26 curtos. Cada proposta foi analisada por três membros do Comitê de Programa, composto por 88 pesquisadores de 13 países e 45 instituições. Após um rigoroso processo de revisão 18 artigos completos e 12 curtos foram selecionados, com taxas de aceitação de 30% e 42%, respectivamente. Os autores dos artigos completos foram convidados a submeter versões estendidas e revisadas dos seus trabalhos para esta edição especial, passando por um novo processo de revisão, desta vez pelos revisores da Linguamática, que selecionaram 7 dos artigos submetidos. Estes artigos representam uma amostra do rico e variado trabalho apresentado no STIL e envolvem pesquisadores de instituições acadêmicas e industriais no Brasil, Portugal e França. Por exemplo, o primeiro artigo, Identificação de expressões multipalavra em domínios específicos de Aline Villavicencio et al., propõe uma abordagem para a identificação de Expressões Multipalavra, tais como compostos nominais e verbos frasais, em corpora técnicos. A proposta apresentada combina medidas de associação com informações linguísticas e de alinhamentos lexicais, e o artigo examina a influência de diversos fatores sobre o seu desempenho. Os dois próximos artigos são relacionados a aplicações de PLN. Em Classificação automática de textos por período literário utilizando compressão de dados através do PPM-C, Bruno Barufaldi et al. propõem a aplicação do método Prediction by Partial Matching (PPM) para a tarefa de classificação de textos de acordo com períodos literários da literatura brasileira. Já Carolina Scarton e Sandra Aluísio, em Análise da inteligibilidade de textos via   ferramentas de processamento de língua natural: adaptando as métricas do Coh-Metrix para o Português, investigam a adaptação de métricas da ferramenta Coh-Metrix para o português do Brasil (Coh-Metrix-Port), primeiramente avaliando as diferenças entre textos complexos para adultos e versões mais simples para crianças e também analisando o desempenho de classificadores para discriminar textos dedicados a adultos e a crianças, que podem ser usados para avaliar a simplicidade de textos disponíveis na Web. O quarto artigo Caracterização e processamento de expressões temporais em português de Caroline Hagège, Jorge Baptista e Nuno Mamede também aborda a questão do tratamento de expressões, mas desta vez o foco é em expressões temporais tais como de manhã e nesta semana. Os autores propõem uma classificação para estas expressões do português e apresentam uma ferramenta de anotação delas em corpora. Quanto a construção de recursos linguísticos para o português, o artigo Extração de relações semânticas entre palavras a partir de um dicionário: o PAPEL e sua avaliação de Hugo Oliveira, Diana Santos e Paulo Gomes apresenta o PAPEL, um recurso lexical que contém relações entre palavras, como sinonímia, automaticamente extraídas de um dicionário através de regras, discutindo ainda uma avaliação do mesmo. Outra tarefa abordada neste volume é a de sumarização, no artigo Estratégias de seleção de conteúdo com base na CST (Cross-document Structure Theory) para sumarização automática multidocumento de Maria Jorge e Thiago Pardo. Os autores discutem a definição, formalização e avaliação de estratégias de seleção de conteúdo para sumarização automática multidocumento com base na teoria discursiva Cross-document Structure Theory. Por fim a tarefa de entendimento e linguagem natural é abordada no artigo Um analisador semântico inferencialista de sentenças em linguagem natural de Vladia Pinheiro et al, onde é descrito o Analisador Semântico Inferencialista (SIA), um raciocinador semântico sobre o conteúdo inferencial de conceitos e padrões de sentenças, avaliado em um sistema de extração de informações sobre crimes.   Aline Villavicencio Horácio Saggion Maria das Graças Volpe Nunes Thiago Pard
    corecore