1 research outputs found
Extracção automática de informação e conhecimento em textos no âmbito B2B
Dissertação de Mestrado em Engenharia InformáticaNesta dissertação é feito um estudo sobre a validade da aplicação de técnicas de
processamento de língua natural a textos na área da construção civil, disponibilizados
pelo portal econstroi gerido pela empresa Vortal. Estes textos correspondem a
especificações para artigos disponibilizados por operadores deste portal. As
especificações encontram-se organizadas segundo uma lista de articulado e relacionam-se
com um sistema de categorização estruturado.
Numa primeira fase é feito um levantamento exaustivo sobre algumas amostras de
diversos artigos, de modo a determinar a validade da utilização de ferramentas de
anotação morfossintáctica no modelo de negócio do portal econstroi. Visto que é
necessário haver um tratamento prévio dos dados para serem analisados, valida-se
igualmente a utilidade de haver uma estruturação e classificação desses dados com base
num sistema de categorias já existente, relacionando assim de forma sólida os dados
inseridos pelos utilizadores com um sistema estruturado por categorias. É igualmente
abordada a questão das ontologias, tendo por base a verificação da necessidade de
relacionar estes dados textuais com uma organização de conhecimento estruturada.
Numa segunda fase, e tendo os textos anotados com etiquetas específicas e genéricas
serão utilizadas gramáticas de cláusulas definidas (DCGs) para extrair conhecimento
destes textos, sendo analisadas possíveis vantagens desta abordagem.
É seguida uma abordagem baseada em SOA, que possibilitará a validação das técnicas
propostas e da sua interoperabilidade com os restantes módulos SOA do portal econstroi.
Em concreto foi desenvolvido um primeiro protótipo que utiliza algumas das técnicas
aqui abordadas