7 research outputs found
Automatisk kategorisering av nyhetsartikler fra to norske aviser
I oppgaven har jeg kjørt forsøk på automatisk kategorisering av artikler fra de to norske avisene
Aftenposten og Klassekampen. Jeg har valgt å bruke Support Vector Mashine (SVM) som bygger på
teoriene fra maskinlæring. SVM er lært opp med artikler fra Aftenposten der kategorier er satt på
manuelt. Det er å forvente at resultatet av kategoriseringen er bedre når artiklene som
kategoriseres, er fra samme kilde som læringsdokumentene. Det ene forsøket mitt gikk derfor ut
på å kategorier artikler fra en avis som ikke var brukt i opplæringen (Klassekampen) , og så
sammenlikne resultatene herfra med resultatene fra kategorisering av Aftenposten. Forsøket viste
et betraktelig dårligere resultat for Klassekampen. Dette var som forventet, det er flere faktorer
som spilte inn og disse er diskutert i oppgaven.
Det andre forsøket jeg kjørte var for å se om kvaliteten på kategoriseringsmetoden ville holde seg
over tid, eller om effekten reduseres etter som det blir større avstand mellom tidspunkt for
opplæring og tidspunktet for kategoriseringen. Jeg forsøkte dette både for Aftenposten og
Klassekampen. Tidsgapet var på tre måneder. For Aftenposten viste resultatene en liten nedgang i
kvaliteten, dette var som forventet. For Klassekampen var resultatene betraktelig bedre etter tre
måneder, men her virket nok et litt lite datagrunnlag inn på resultatet.Master i bibliotek- og informasjonsvitenska
Theme-based Retrieval of Web News
We present our framework for classification of Web news, based on support vector machines, and some of the initial measurements of its accuracy
THEME-BASED RETRIEVAL OF WEB NEWS
A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A
explosão da quantidade de informação disponível não foi acompanhada por mecanismos
que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais
não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem
diariamente informação, que nem sempre é convenientemente armazenada. As
necessidades de comunidades mais específicas ficam assim relegadas para segundo plano.
Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de
informação relevante aos interesses dos leitores.
Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de
informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir
operações de pesquisa e organizar os resultados segundo esquemas de classificação
normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo:
· Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada
publicação.
· Técnicas avançadas de Recuperação de Informação para permitir pesquisas
rápidas e classificação de documentos.
· O algoritmo de classificação Support Vector Machines, apontado como o mais
eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas
classificações.
O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento
quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação
de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas
das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%