331 research outputs found

    Story Link Detection in Turkish Corpus

    Full text link

    Dynamic hyperparameter optimization for bayesian topical trend analysis

    Get PDF
    This paper presents a new Bayesian topical trend analysis. We regard the parameters of topic Dirichlet priors in latent Dirichlet allocation as a function of document timestamps and optimize the parameters by a gradient-based algorithm. Since our method gives similar hyperparameters to the documents having similar timestamps, topic assignment in collapsed Gibbs sampling is affected by timestamp similarities. We compute TFIDF-based document similarities by using a result of collapsed Gibbs sampling and evaluate our proposal by link detection task of Topic Detection and Tracking.Proceeding of the 18th ACM conference : Hong Kong, China, 2009.11.02-2009.11.0

    Semanttisten luokkien soveltaminen automaattisessa uutisseurannassa

    Get PDF
    Topic detection and tracking (TDT) is an area of information retrieval research the focus of which revolves around news events. The problems TDT deals with relate to segmenting news text into cohesive stories, detecting something new, previously unreported, tracking the development of a previously reported event, and grouping together news that discuss the same event. The performance of the traditional information retrieval techniques based on full-text similarity has remained inadequate for online production systems. It has been difficult to make the distinction between same and similar events. In this work, we explore ways of representing and comparing news documents in order to detect new events and track their development. First, however, we put forward a conceptual analysis of the notions of topic and event. The purpose is to clarify the terminology and align it with the process of news-making and the tradition of story-telling. Second, we present a framework for document similarity that is based on semantic classes, i.e., groups of words with similar meaning. We adopt people, organizations, and locations as semantic classes in addition to general terms. As each semantic class can be assigned its own similarity measure, document similarity can make use of ontologies, e.g., geographical taxonomies. The documents are compared class-wise, and the outcome is a weighted combination of class-wise similarities. Third, we incorporate temporal information into document similarity. We formalize the natural language temporal expressions occurring in the text, and use them to anchor the rest of the terms onto the time-line. Upon comparing documents for event-based similarity, we look not only at matching terms, but also how near their anchors are on the time-line. Fourth, we experiment with an adaptive variant of the semantic class similarity system. The news reflect changes in the real world, and in order to keep up, the system has to change its behavior based on the contents of the news stream. We put forward two strategies for rebuilding the topic representations and report experiment results. We run experiments with three annotated TDT corpora. The use of semantic classes increased the effectiveness of topic tracking by 10-30\% depending on the experimental setup. The gain in spotting new events remained lower, around 3-4\%. The anchoring the text to a time-line based on the temporal expressions gave a further 10\% increase the effectiveness of topic tracking. The gains in detecting new events, again, remained smaller. The adaptive systems did not improve the tracking results.Automaattinen uutistapahtumien seuranta on tietojenkäsittelytieteen ja siinä tiedonhaun piiriin kuuluva tutkimusalue, jossa kehitetään menetelmiä digitaalisen uutisvirran hallintaan. Uutisvirta koostuu useista, mahdollisesti eri kielisistä uutislähteistä, joissa voi olla digitaalisia online-uutisia ja radio- sekä televisiouutisia. Alueen tutkimusongelmat koostuvat uusien, aikaisemmin uutisoimattomien uutistapahtumien havaitsemisesta, tunnistettujen uutistapahtumien kehityksen seuraamisesta ja uutisten ryhmittelystä sisällön perusteella sekä uutisvirran pilkkomisesta uutisjutuiksi. Tässä työssä keskitytään kahteen ensimmäiseen tutkimusongelmaan. Perinteiset tiedonhakumenetelmät, jotka ovat edelleen internet-tiedonhakujärjestelmien perustana, vertailevat tekstidokumentteja joukkoina sanoja ja käsittelevät sanoja yksinkertaisina merkkijonoja, mikä mahdollistaa nopeat hakuajat ja kohtuullisen hyvä tulokset mutta kadottaa sanojen merkitykset. Perinteiset menetelmät eivät ole kuitenkaan toimineet erityisen hyvin tapahtumapohjaisessa uutisseurannassa. Erityisen vaikeaa on ollut tunnistaa kaksi samantyyppistä uutistapahtumaa, esim. kaksi lento-onnettomuutta, eri tapahtumiksi, koska niiden uutisointi sisältää pitkälti samoja sanoja. Tässä työssä etsitään uusia tapoja kuvata ja vertailla uutisia. Ensinnäkin sanat ryhmitellään merkitystensä mukaan joukoiksi samankaltaisia sanoja eli semanttisiksi luokiksi. Työssä käytetään semanttisia luokkia kuten yleiset sanat, organisaatiot, henkilöt, paikanilmaukset ja ajanilmaukset, jotka karkeasti ottaen vastaavat kysymyksiin mitä, kuka, milloin ja missä. Jokaisen luokan sisällä sanoja voidaan vertailla hieman eri tavoin, ja niinpä paikanilmausten kohdalla voidaan kaksi eri kaupunkia tai maata huomata maantieteellisesti läheisiksi tai organisaatioiden nimien kohdalla tunnistaa kaksi nimeä viittaavan samaan organisaatioon. Semanttisen luokan taustalle voidaan kytkeä sanojen taksonomia tai jokin muu rakenne, jonka kautta voidaan selvittää luokan sanojen välinen suhde. Lisäksi tekstistä tunnistetaan ajanilmaukset (esim. 'eilen', 'kaksi vuotta sitten helmikuussa') ja teksti ankkuroidaan niiden avulla aika-akselille. Tällöin tunnistetaan eri uutistapahtumista puhuttaessa samaa sanaa, esim. 'lento-onnettomuus', käytetään eri aikayhteydessä. Uutisia verrataan semanttinen luokka kerrallaan, ja tunnistaminen nojaa näiden erilaisten luokkakohtaisten tulosten yhdistelmään. Näin kaksi lento-onnettomuusuutista voivat olla samanlaisia yleisten sanojen suhteen mutta erilaisia paikkojen ja ajanilmausten suhteen, koska ne tapahtuvat eri paikoissa eri aikaan. Uutistapahtumia on monenlaisia, eikä todellisuus tai siitä kertovat uutiset taivu täysin kauniisiin malleihin. Tutkimustuloksissa kuitenkin semanttisten luokkien käyttö parantaa tuntuvasti uutistapahtumien seurannan tarkkuutta verrattuna perinteiseen lähestymistapaan -- uusien tapahtumien tunnistamista hieman vähemmän

    Knowledge-Driven Harmonization of Sensor Observations: Exploiting Linked Open Data for IoT Data Streams

    Get PDF
    The rise of the Internet of Things leads to an unprecedented number of continuous sensor observations that are available as IoT data streams. Harmonization of such observations is a labor-intensive task due to heterogeneity in format, syntax, and semantics. We aim to reduce the effort for such harmonization tasks by employing a knowledge-driven approach. To this end, we pursue the idea of exploiting the large body of formalized public knowledge represented as statements in Linked Open Data

    Social Intelligence Design 2007. Proceedings Sixth Workshop on Social Intelligence Design

    Get PDF

    Functional object-types as a foundation of complex knowledge-based systems

    Get PDF
    corecore