7 research outputs found

    Automatisk kategorisering av nyhetsartikler fra to norske aviser

    Get PDF
    I oppgaven har jeg kjørt forsøk på automatisk kategorisering av artikler fra de to norske avisene Aftenposten og Klassekampen. Jeg har valgt å bruke Support Vector Mashine (SVM) som bygger på teoriene fra maskinlæring. SVM er lært opp med artikler fra Aftenposten der kategorier er satt på manuelt. Det er å forvente at resultatet av kategoriseringen er bedre når artiklene som kategoriseres, er fra samme kilde som læringsdokumentene. Det ene forsøket mitt gikk derfor ut på å kategorier artikler fra en avis som ikke var brukt i opplæringen (Klassekampen) , og så sammenlikne resultatene herfra med resultatene fra kategorisering av Aftenposten. Forsøket viste et betraktelig dårligere resultat for Klassekampen. Dette var som forventet, det er flere faktorer som spilte inn og disse er diskutert i oppgaven. Det andre forsøket jeg kjørte var for å se om kvaliteten på kategoriseringsmetoden ville holde seg over tid, eller om effekten reduseres etter som det blir større avstand mellom tidspunkt for opplæring og tidspunktet for kategoriseringen. Jeg forsøkte dette både for Aftenposten og Klassekampen. Tidsgapet var på tre måneder. For Aftenposten viste resultatene en liten nedgang i kvaliteten, dette var som forventet. For Klassekampen var resultatene betraktelig bedre etter tre måneder, men her virket nok et litt lite datagrunnlag inn på resultatet.Master i bibliotek- og informasjonsvitenska

    Theme-based Retrieval of Web News

    No full text
    We present our framework for classification of Web news, based on support vector machines, and some of the initial measurements of its accuracy

    THEME-BASED RETRIEVAL OF WEB NEWS

    No full text
    A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%
    corecore