Abstract

Este relato técnico descreve o desenvolvimento de modelos, técnicas e protótipos para localização, padronização e extração automática do conteúdo apresentado em sites/páginas web com assuntos relacionados à área da saúde, visando à estimativa da qualidade destes sites/páginas extraídos. As técnicas e propostas descritas neste documento foram desenvolvidas ao longo do primeiro semestre de 2009 pelos alunos da disciplina CMPl12 - Sistemas de Informação Distribuídos do Programa de Pós-Graduação do Instituto de Informática da Universidade Federal do Rio Grande do Sul, ministrada pelo Professor Dr. José Palazzo Moreira de Oliveira. Cada uma das tarefas descritas aplicou técnicas e tecnologias diferentes para o seu desenvolvimento, apresentando resultados de diferentes naturezas, como tabelas, protótipos e modelos. Entretanto, todas foram desenvolvidas em busca do mesmo objetivo: a extração automática do conteúdo de sites/páginas que tratam sobre o tema "Doença de Alzheimer". Ao final to trabalho, obteve-se um conjunto de resultados, os quais serão utilizados para possibilitar a realização de estimativas a respeito da qualidade dos sites/páginas extraídos, de acordo com métricas de qualidade definidas.This report describes the development of models, techniques and prototypes to location, standardization and automatic extraction of content presented in web sites/pages with subject related to health, objecting estimate its quality. The techniques and proposals described here was performed during the first half of 2009 by students of the lecture CMP112 – Distributed Information Systems of Institute of Informatics of Federal University of Rio Grande do Sul, conducted by Professor Dr. José Palazzo Moreira de Oliveira. Each one of the tasks described in this report used different techniques and technologies for their development, presenting results of different natures, such as tables, prototypes and models. However, all tasks were developed looking for the same objective: the automatic extraction of content from web sites/pages related with the subject “Alzheimer’s Disease”. At the end of the work, we obtained a set of results, which will be used to enable the development of estimative concerning the quality of extracted web sites/pages, according with defined quality metrics

    Similar works