17 research outputs found

    Summarization Techniques for Pattern Collections in Data Mining

    Get PDF
    Discovering patterns from data is an important task in data mining. There exist techniques to find large collections of many kinds of patterns from data very efficiently. A collection of patterns can be regarded as a summary of the data. A major difficulty with patterns is that pattern collections summarizing the data well are often very large. In this dissertation we describe methods for summarizing pattern collections in order to make them also more understandable. More specifically, we focus on the following themes: 1) Quality value simplifications. 2) Pattern orderings. 3) Pattern chains and antichains. 4) Change profiles. 5) Inverse pattern discovery.Comment: PhD Thesis, Department of Computer Science, University of Helsink

    Algorithms for 13C metabolic flux analysis

    Get PDF
    The metabolism of an organism consists of a network of biochemical reactions that transform small molecules, or metabolites, into others in order to produce energy and building blocks for essential macromolecules. The goal of metabolic flux analysis is to uncover the rates, or the fluxes, of those biochemical reactions. In a steady state, the sum of the fluxes that produce an internal metabolite is equal to the sum of the fluxes that consume the same molecule. Thus the steady state imposes linear balance constraints to the fluxes. In general, the balance constraints imposed by the steady state are not sufficient to uncover all the fluxes of a metabolic network. The fluxes through cycles and alternative pathways between the same source and target metabolites remain unknown. More information about the fluxes can be obtained from isotopic labelling experiments, where a cell population is fed with labelled nutrients, such as glucose that contains 13C atoms. Labels are then transferred by biochemical reactions to other metabolites. The relative abundances of different labelling patterns in internal metabolites depend on the fluxes of pathways producing them. Thus, the relative abundances of different labelling patterns contain information about the fluxes that cannot be uncovered from the balance constraints derived from the steady state. The field of research that estimates the fluxes utilizing the measured constraints to the relative abundances of different labelling patterns induced by 13C labelled nutrients is called 13C metabolic flux analysis. There exist two approaches of 13C metabolic flux analysis. In the optimization approach, a non-linear optimization task, where candidate fluxes are iteratively generated until they fit to the measured abundances of different labelling patterns, is constructed. In the direct approach, linear balance constraints given by the steady state are augmented with linear constraints derived from the abundances of different labelling patterns of metabolites. Thus, mathematically involved non-linear optimization methods that can get stuck to the local optima can be avoided. On the other hand, the direct approach may require more measurement data than the optimization approach to obtain the same flux information. Furthermore, the optimization framework can easily be applied regardless of the labelling measurement technology and with all network topologies. In this thesis we present a formal computational framework for direct 13C metabolic flux analysis. The aim of our study is to construct as many linear constraints to the fluxes from the 13C labelling measurements using only computational methods that avoid non-linear techniques and are independent from the type of measurement data, the labelling of external nutrients and the topology of the metabolic network. The presented framework is the first representative of the direct approach for 13C metabolic flux analysis that is free from restricting assumptions made about these parameters.In our framework, measurement data is first propagated from the measured metabolites to other metabolites. The propagation is facilitated by the flow analysis of metabolite fragments in the network. Then new linear constraints to the fluxes are derived from the propagated data by applying the techniques of linear algebra.Based on the results of the fragment flow analysis, we also present an experiment planning method that selects sets of metabolites whose relative abundances of different labelling patterns are most useful for 13C metabolic flux analysis. Furthermore, we give computational tools to process raw 13C labelling data produced by tandem mass spectrometry to a form suitable for 13C metabolic flux analysis.Solun aineenvaihdunta koostuu verkostosta biokemiallisia reaktioita, jotka muuttavat pieniä molekyylejä, metaboliitteja toisiksi. Aineenvaihdunta tuottaa elämälle välttämättömiä yhdisteitä, kuten aminohappoja, pienempiä metaboliitteja yhdistelemällä. Lisäksi aineenvaihdunta tuottaa solulle energiaa metaboliitteja pilkkomalla. Solut reagoivat ympäristön ja genotyyppien muutoksiin säätelemällä aineenvaihduntaansa. Siten tieto aineenvaihdunnan reaktioiden nopeuksista on hyödyllistä mm. tutkittaessa organismin käyttäytymistä eri olosuhteissa tai sukulaisorganismien eroja vertailtaessa. Tietoa aineenvaihduntareaktioiden nopeuksista voidaan hyödyntää esim. muokattaessa mikrobeja tai kasveja tuottamaan tehokkaasti haluttuja lopputuotteita, kuten biopolttoainetta tai lääkeaineita. Informaatio aineenvaihduntareaktioiden nopeuksista voi auttaa myös ihmisen sairauksien ymmärtämisessä ja niiden hoidossa. Tässä tietojenkäsittelytieteen alaan kuuluvassa väitöskirjassa kehitetään laskennallisia menetelmiä aineenvaihduntareaktioiden nopeuksien päättelemiseksi. Väitöskirjan koeasetelmassa solulle syötetään hiilen 13C-isotoopein leimattua lähtöainetta. Isotooppileimattu lähtöaine leviää aineenvaihduntaverkostossa muihin metaboliitteihin aineenvaihduntareaktioiden nopeuksista riippuvalla tavalla. Metaboliittien leimausasteet voidaan mitata, mutta saatava mittaustieto on epätäydellistä. Väitöskirjassa esitetään laskennallisia menetelmiä, jotka pyrkivät epätäydellisen leimausmittausdatan avulla arvioimaan aineenvaihduntareaktioiden nopeudet mahdollisimman tarkasti. Menetelmiä on mahdollista soveltaa kaikille aineenvaihduntaverkoille sekä lähtöaineiden isotooppileimauskuvioille. Menetelmät kykenevät myös yhtäaikaisesti hyödyntämään eri mittalaitteiden tuottaman, toisiaan täydentävän informaation metaboliittien leimausasteista. Näin väitöskirjan laskennalliset menetelmät yleistävät aiempia, vain tietyille aineenvaihduntaverkon rakenteille, lähtöaineiden leimauskuvioille tai mittaustekniikoille räätälöityjä menetelmiä. Väitöskirjassa esitetään myös algoritmeja reaktionopeuksien arvioimisen kannalta tärkeimpien mitattavien metaboliittien valitsemiseksi sekä massaspektrometrin tuottaman raakadatan muokkaamiseksi paremmin aineenvaihduntareaktioiden nopeuden arvioimiseen sopivaan muotoon. Väitöskirjan menetelmät perustuvat aineenvaihduntaverkon rakenteen kombinatoriseen vuoanalyysiin sekä mittausdatan kuvaamiseen ja manipuloimiseen lineaarialgebran tekniikoin. Esitetyt menetelmät ovat laskennallisesti tehokkaita ja sopivat siten suurtenkin aineenvaihduntaverkkojen analysointiin

    Multi-user resource-sharing problem for the Internet

    Get PDF
    In this thesis we study a series of multi-user resource-sharing problems for the Internet, which involve distribution of a common resource among participants of multi-user systems (servers or networks). We study concurrently accessible resources, which for end-users may be exclusively accessible or non-exclusively. For all kinds we suggest a separate algorithm or a modification of common reputation scheme. Every algorithm or method is studied from different perspectives: optimality of protocols, selfishness of end users, fairness of the protocol for end users. On the one hand the multifaceted analysis allows us to select the most suited protocols among a set of various available ones based on trade-offs of optima criteria. On the other hand, the future Internet predictions dictate new rules for the optimality we should take into account and new properties of the networks that cannot be neglected anymore. In this thesis we have studied new protocols for such resource-sharing problems as the backoff protocol, defense mechanisms against Denial-of-Service, fairness and confidentiality for users in overlay networks. For backoff protocol we present analysis of a general backoff scheme, where an optimization is applied to a general-view backoff function. It leads to an optimality condition for backoff protocols in both slot times and continuous time models. Additionally we present an extension for the backoff scheme in order to achieve fairness for the participants in an unfair environment, such as wireless signal strengths. Finally, for the backoff algorithm we suggest a reputation scheme that deals with misbehaving nodes. For the next problem -- denial-of-service attacks, we suggest two schemes that deal with the malicious behavior for two conditions: forged identities and unspoofed identities. For the first one we suggest a novel most-knocked-first-served algorithm, while for the latter we apply a reputation mechanism in order to restrict resource access for misbehaving nodes. Finally, we study the reputation scheme for the overlays and peer-to-peer networks, where resource is not placed on a common station, but spread across the network. The theoretical analysis suggests what behavior will be selected by the end station under such a reputation mechanism.Tässä väitöskirjassa tutkimme useita Internetin resurssienjako-ongelmia, jotka liittyvät yhteisten resurssien käyttöön ja jakamiseen monen käyttäjän järjestelmissä. Tutkimme rinnakkain käytettäviä resursseja, jotka voidaan antaa käyttäjille omaan tai jaettuun käyttöön. Ratkaisuna ehdotamme joko uutta algoritmia tai muutoksia olemassaoleviin tunnettuihin mainejärjestelmiin. Kaikkia algoritmeja tutkitaan useammasta näkökulmasta: protokollien optimaalisuus, käyttäjien itsekkyys, protokollan reiluus käytäjiä kohtaan. Tämä monikantainen analyysi mahdollistaa sopivimman protokollan valinnan, ottaen huomioon erilaiset optimointikriteerit. Toisaalta, tulevaisuuden verkkoratkaisut määrittelevät uusia optimointisääntöjä, sekä verkkojen uusia ominaisuuksia, jotka molemmat pitää ottaa tulevaisuudessa huomioon

    A Probabilistic Approach to the Primary Visual Cortex

    Get PDF
    What can the statistical structure of natural images teach us about the human brain? Even though the visual cortex is one of the most studied parts of the brain, surprisingly little is known about how exactly images are processed to leave us with a coherent percept of the world around us, so we can recognize a friend or drive on a crowded street without any effort. By constructing probabilistic models of natural images, the goal of this thesis is to understand the structure of the stimulus that is the raison d etre for the visual system. Following the hypothesis that the optimal processing has to be matched to the structure of that stimulus, we attempt to derive computational principles, features that the visual system should compute, and properties that cells in the visual system should have. Starting from machine learning techniques such as principal component analysis and independent component analysis we construct a variety of sta- tistical models to discover structure in natural images that can be linked to receptive field properties of neurons in primary visual cortex such as simple and complex cells. We show that by representing images with phase invariant, complex cell-like units, a better statistical description of the vi- sual environment is obtained than with linear simple cell units, and that complex cell pooling can be learned by estimating both layers of a two-layer model of natural images. We investigate how a simplified model of the processing in the retina, where adaptation and contrast normalization take place, is connected to the nat- ural stimulus statistics. Analyzing the effect that retinal gain control has on later cortical processing, we propose a novel method to perform gain control in a data-driven way. Finally we show how models like those pre- sented here can be extended to capture whole visual scenes rather than just small image patches. By using a Markov random field approach we can model images of arbitrary size, while still being able to estimate the model parameters from the data

    Mixture Model Clustering in the Analysis of Complex Diseases

    Get PDF
    The topic of this thesis is the analysis of complex diseases, and specifically the use of certain clustering methods to do it. We concern ourselves mostly with the modeling of complex phenotypes of diseases: the symptoms and signs of diseases, and the other multiple cophenotypes that go with them. The two related questions we seek answers for are: 1) how can we use these clustering methods to summarize the complex, multivariate phenotype data, for example to be used as a simple phenotype in genetic analyses and 2) how can we use these clustering methods to find subgroups of sufferers of a particular disease, such that might share the same causal factors of the disease. Current methods for studies on medical genetics ideally call for a single or at most handful of univariate phenotypes to be compared to genetic markers. Multidimensional phenotypes cannot be handled by the standard methods, and treating each variable as independent and testing one hundred phenotypes with unclear true dependency structure against thousands of markers results into problems with both running times and multiple testing correction. In this work, clustering is utilized to summarize a multi-dimensional phenotype into something that can then be used in association studies of both genetic and other type of potential causes. I describe a clustering process and some clustering methods used in this work, with comments on practical issues and references to the relevant literature. After some experiments on artificial data to gain insight to the properties of these methods, I present four case-studies on real data, highlighting both ways to succesfully use these methods and problems that can arise in the process.Tässä väitöskirjatyössä tarkastellaan niin sanottujen kompleksitautien mallintamista sekoitemalliklusteroinniin avulla. Monet nykyään käytössä olevat geneettiset ja muut epidemiologiset menetelmät olettavat yksimuuttujaisen ilmenemisasun (esimerkiksi ihmisellä joko on tai ei ole tietty sairaus), mutta kompleksitautien ilmenemismuodot ovat yleensä monimutkaisempia. Tämän väitöskirjatyön pääasiallisena tutkimuskohteena on näiden monimutkaisten tautien ilmenemismuotojen (oireiden, löydösten ja samaan aikaan esiintyvien muiden piirteiden) mallintaminen sekoitemalliklusterointimentelmiä käyttäen. Tavoitteena on joko löytää yksinkertaisia kuvauksia monimutkaisista taudeista tai erottaa potilaista sellaisia alaryhmiä, että taudinkuva niiden sisällä on hyvin samankaltainen. Näitä tietoja voidaan sitten käyttää hyväksi tautien syitä selvitettäessä. Väitöskirjassa on kartoitettu näiden sekoitemalliklusteroinnin menetelmien käyttäytymistä eri tilanteissa käyttäen testiaineistona keinotekoista dataa, joka ominaisuuksiltaan muistuttaa todellista lääketieteellistä aineistoa. Lisäksi kuvataan menetelmien soveltamista neljässä oikeassa lääketieteellisessä aineistossa siten, että havainnollistetuksi tulee sekä tämänkaltaisen tutkimuksen hyviä että heikkoja puolia

    Laskennallisia menetelmiä säilyneiden geenisäätelyelementtien analyysiin ja paikallistamiseen DNA:sta

    Get PDF
    This thesis presents methods for locating and analyzing cis-regulatory DNA elements involved with the regulation of gene expression in multicellular organisms. The regulation of gene expression is carried out by the combined effort of several transcription factor proteins collectively binding the DNA on the cis-regulatory elements. Only sparse knowledge of the 'genetic code' of these elements exists today. An automatic tool for discovery of putative cis-regulatory elements could help their experimental analysis, which would result in a more detailed view of the cis-regulatory element structure and function. We have developed a computational model for the evolutionary conservation of cis-regulatory elements. The elements are modeled as evolutionarily conserved clusters of sequence-specific transcription factor binding sites. We give an efficient dynamic programming algorithm that locates the putative cis-regulatory elements and scores them according to the conservation model. A notable proportion of the high-scoring DNA sequences show transcriptional enhancer activity in transgenic mouse embryos. The conservation model includes four parameters whose optimal values are estimated with simulated annealing. With good parameter values the model discriminates well between the DNA sequences with evolutionarily conserved cis-regulatory elements and the DNA sequences that have evolved neutrally. In further inquiry, the set of highest scoring putative cis-regulatory elements were found to be sensitive to small variations in the parameter values. The statistical significance of the putative cis-regulatory elements is estimated with the Two Component Extreme Value Distribution. The p-values grade the conservation of the cis-regulatory elements above the neutral expectation. The parameter values for the distribution are estimated by simulating the neutral DNA evolution. The conservation of the transcription factor binding sites can be used in the upstream analysis of regulatory interactions. This approach may provide mechanistic insight to the transcription level data from, e.g., microarray experiments. Here we give a method to predict shared transcriptional regulators for a set of co-expressed genes. The EEL (Enhancer Element Locator) software implements the method for locating putative cis-regulatory elements. The software facilitates both interactive use and distributed batch processing. We have used it to analyze the non-coding regions around all human genes with respect to the orthologous regions in various other species including mouse. The data from these genome-wide analyzes is stored in a relational database which is used in the publicly available web services for upstream analysis and visualization of the putative cis-regulatory elements in the human genome.Kun ihmisen genomi saatiin sekvensoitua eli ihmisen geenit oli löydetty ja eritelty vuosituhannen alussa, tiedemiehet yllättyivät ihmisen geenien pienestä määrästä. Ihmisellä havaittiin olevan vain vähän enemmän geenejä kuin yksinkertaisella sukkulamadolla. Koska geenien lukumäärä ei pystykään selittämään ihmisen ja sukkulamadon ulkoisia eroavaisuuksia, selitystä ruvettiin etsimään geenien toiminnan eroista. Geenien toimintaa säädellään monisoluisissa eliöissä hyvin tarkasti tiettyyn paikkaan ja tiettyyn osaan ruumista. Tietyt proteiinit toteuttavat geenien säätelyä sitoutumalla tiettyihin kohtiin DNA:ta säädeltävän geenin läheisyydessä. Näiden DNA:han sitoutumiskohtien löytäminen genomista on kokeellisesti hyvin haastavaa: ne saattavat sijaita hyvin kaukana säädeltävästä geenistä eikä proteiinien sitoutumissääntöjä tunneta vielä kovin hyvin. Väitöstyössä on kehitetty laskennallisia menetelmiä geenisäätelyyn liittyvien DNA sitoutumiskohtien paikantamiseen eri nisäkkäiden genomeja vertailemalla. Esimerkiksi ihmisen ja hiiren genomeja vertailemalla voidaan paikantaa DNA:n pätkiä, jotka ovat olleet hiirien ja ihmisten viimeisessä yhteisessä esivanhemmassa noin 65 miljoonaa vuotta sitten ja lisäksi vaikuttavat mahdollisilta proteiinien sitoutumiskohdilta. Tällaisia mahdollisia DNA:han sitoutumiskohtia on löydetty ihmisen genomista tuhansia, ja osan niistä on kokeellisesti havaittu säätelevän lähellä sijaitsevaa geeniä. Sitoutumiskohtien analysointiin kehitettiin väitöstutkimuksessa menetelmä, jolla voidaan ennustaa geenijoukoille säätelyproteiineja. Nykyaikaiset tehoseulontamenetelmät löytävät nopeasti geenijoukkoja, joilla on jokin kiinnostava ominaisuus, jonka säätelystä ollaan kiinnostuneita. Kehitetyllä menetelmällä voidaan helposti ennustaa esimerkiksi tiettyyn sairauteen liittyvien geenien säätelijä. Kun mahdollinen säätelijäproteiini tunnetaan, sitä vastaan voidaan kehittää lääke. Työn tulokset antavat uusia menetelmiä erityisesti vaikeasti tutkittavien yksilönkehityksen aikana säädeltyjen geenien analyysiin. Kehitettyjen menetelmien lääketieteelliset sovellukset liittyvät esimerkiksi kudosspesifiin kasvun säätelyyn ja syöpägeenien kasvainspesifisyyteen. Nämä sovellukset pyrkivät selvittämään mm. syytä ihmisen suhteettoman suurille aivoille ja pienille lihaksille ja toisaalta pyrkivät avaamaan uusia lähestymistapoja esimerkiksi syövän diagnostiikkaan ja hoitoon

    Epälineaarisen visuaalisen prosessoinnin oppiminen luonnollisista kuvista

    Get PDF
    The paradigm of computational vision hypothesizes that any visual function -- such as the recognition of your grandparent -- can be replicated by computational processing of the visual input. What are these computations that the brain performs? What should or could they be? Working on the latter question, this dissertation takes the statistical approach, where the suitable computations are attempted to be learned from the natural visual data itself. In particular, we empirically study the computational processing that emerges from the statistical properties of the visual world and the constraints and objectives specified for the learning process. This thesis consists of an introduction and 7 peer-reviewed publications, where the purpose of the introduction is to illustrate the area of study to a reader who is not familiar with computational vision research. In the scope of the introduction, we will briefly overview the primary challenges to visual processing, as well as recall some of the current opinions on visual processing in the early visual systems of animals. Next, we describe the methodology we have used in our research, and discuss the presented results. We have included some additional remarks, speculations and conclusions to this discussion that were not featured in the original publications. We present the following results in the publications of this thesis. First, we empirically demonstrate that luminance and contrast are strongly dependent in natural images, contradicting previous theories suggesting that luminance and contrast were processed separately in natural systems due to their independence in the visual data. Second, we show that simple cell -like receptive fields of the primary visual cortex can be learned in the nonlinear contrast domain by maximization of independence. Further, we provide first-time reports of the emergence of conjunctive (corner-detecting) and subtractive (opponent orientation) processing due to nonlinear projection pursuit with simple objective functions related to sparseness and response energy optimization. Then, we show that attempting to extract independent components of nonlinear histogram statistics of a biologically plausible representation leads to projection directions that appear to differentiate between visual contexts. Such processing might be applicable for priming, \ie the selection and tuning of later visual processing. We continue by showing that a different kind of thresholded low-frequency priming can be learned and used to make object detection faster with little loss in accuracy. Finally, we show that in a computational object detection setting, nonlinearly gain-controlled visual features of medium complexity can be acquired sequentially as images are encountered and discarded. We present two online algorithms to perform this feature selection, and propose the idea that for artificial systems, some processing mechanisms could be selectable from the environment without optimizing the mechanisms themselves. In summary, this thesis explores learning visual processing on several levels. The learning can be understood as interplay of input data, model structures, learning objectives, and estimation algorithms. The presented work adds to the growing body of evidence showing that statistical methods can be used to acquire intuitively meaningful visual processing mechanisms. The work also presents some predictions and ideas regarding biological visual processing.Laskennallisen näön paradigma esittää, että mikä tahansa näkötoiminto - esimerkiksi jonkun esineen tunnistaminen - voidaan toistaa keinotekoisesti käyttäen laskennallisia menetelmiä. Minkälaisia nämä laskennalliset menetelmät voisivat olla, tai minkälaisia niiden tulisi olla? Tässä väitöskirjassa tutkitaan tilastollista lähestymistapaa näkemisen mekanismien muodostamiseen. Sovelletussa lähestymistavassa laskennallista käsittelyä yritetään muodostaa optimoimalla (tai 'oppimalla') siten, että toivotulle käsittelylle asetetaan erilaisia tavoitteita jonkin annetun luonnollisten kuvien joukon suhteen. Väitöskirja koostuu johdannosta ja seitsemästä kansainvälisillä foorumeilla julkaistusta tutkimusartikkelista. Johdanto esittelee väitöskirjan poikkitieteellistä tutkimusaluetta niille, jotka eivät entuudestaan tunne laskennallista näkötutkimusta. Johdannossa käydään läpi visuaalisen prosessoinnin haasteita sekä valotetaan hieman tämänhetkisiä mielipiteitä biologisista näkömekanismeista. Seuraavaksi lukija tutustutetaan työssä käytettyyn tutkimusmetodologiaan, jonka voi pitkälti nähdä koneoppimisen (tilastotieteen) soveltamisena. Johdannon lopuksi käydään läpi työn tutkimusartikkelit. Tämä katsaus on varustettu sellaisilla lisäkommenteilla, havainnoilla ja kritiikeillä, jotka eivät sisältyneet alkuperäisiin artikkeleihin. Varsinaiset tulokset väitöskirjassa liittyvät siihen, minkälaisia yksinkertaisia prosessointimekanismeja muodostuu yhdistelemällä erilaisia oppimistavoitteita, funktioluokkia, epälineaarisuuksia ja luonnollista kuvadataa. Työssä tarkastellaan erityisesti representaatioiden riippumattomuuteen ja harvuuteen tähtääviä oppimistavoitteita, mutta myös sellaisia, jotka pyrkivät edesauttamaan objektintunnistuksessa. Esitämme näiden aiheiden tiimoilta uusia löydöksiä, jotka listataan tarkemmin sekä englanninkielisessä tiivistelmässä että väitöskirjan alkusivuilla. Esitetty väitöskirjatyö tarjoaa lisänäyttöä siitä, että intuitiivisesti mielekkäitä visuaalisia prosessointimekanismeja voidaan muodostaa tilastollisin keinoin. Työ tarjoaa myös joitakin ennusteita ja ideoita liittyen biologisiin näkömekanismeihin

    Algorithms for Exact Structure Discovery in Bayesian Networks

    Get PDF
    Bayesian networks are compact, flexible, and interpretable representations of a joint distribution. When the network structure is unknown but there are observational data at hand, one can try to learn the network structure. This is called structure discovery. This thesis contributes to two areas of structure discovery in Bayesian networks: space--time tradeoffs and learning ancestor relations. The fastest exact algorithms for structure discovery in Bayesian networks are based on dynamic programming and use excessive amounts of space. Motivated by the space usage, several schemes for trading space against time are presented. These schemes are presented in a general setting for a class of computational problems called permutation problems; structure discovery in Bayesian networks is seen as a challenging variant of the permutation problems. The main contribution in the area of the space--time tradeoffs is the partial order approach, in which the standard dynamic programming algorithm is extended to run over partial orders. In particular, a certain family of partial orders called parallel bucket orders is considered. A partial order scheme that provably yields an optimal space--time tradeoff within parallel bucket orders is presented. Also practical issues concerning parallel bucket orders are discussed. Learning ancestor relations, that is, directed paths between nodes, is motivated by the need for robust summaries of the network structures when there are unobserved nodes at work. Ancestor relations are nonmodular features and hence learning them is more difficult than modular features. A dynamic programming algorithm is presented for computing posterior probabilities of ancestor relations exactly. Empirical tests suggest that ancestor relations can be learned from observational data almost as accurately as arcs even in the presence of unobserved nodes.Algoritmeja Bayes-verkkojen rakenteen tarkkaan oppimiseen Bayes-verkot ovat todennäköisyysmalleja, joiden avulla voidaan kuvata muuttujien välisiä suhteita. Bayes-verkko koostuu kahdesta osasta: rakenteesta ja kuhunkin muuttujaan liittyvästä ehdollisesta todennäköisyysjakaumasta. Rakenteen puolestaan muodostaa muuttujien välisiä riippuvuuksia kuvaava suunnattu syklitön verkko. Kun tarkasteltavaa ilmiötä hyvin kuvaavaa Bayes-verkkoa ei tunneta ennalta, mutta ilmiöön liittyvistä muuttujista on kerätty havaintoaineistoa, voidaan sopivia algoritmeja käyttäen yrittää löytää verkkorakenne, joka sovittuu aineistoon mahdollisimman hyvin. Nopeimmat tarkat rakenteenoppimisalgoritmit perustuvat niin kutsuttuun dynaamiseen ohjelmointiin, eli ne pitävät välituloksia muistissa ja näin välttävät suorittamasta samoja laskuja useaan kertaan. Vaikka tällaiset menetelmät ovat suhteellisen nopeita, niiden haittapuolena on suuri muistinkäyttö, joka estää suurten verkkojen rakenteen oppimisen. Väitöskirjan alkuosa käsittelee rakenteenoppimisalgoritmeja, jotka tasapainottelevat ajan- ja muistinkäytön välillä. Kirjassa esitellään menetelmiä, joilla verkon rakenne voidaan oppia tehokkaasti käyttäen hyväksi kaikki käytössä oleva tila. Uusi menetelmä mahdollistaa entistä suurempien verkkojen rakenteen oppimisen. Edellä mainittu menetelmä yleistetään ratkaisemaan Bayes-verkkojen rakenteenoppimisen lisäksi myös niin kutsuttuja permutaatio-ongelmia, joista tunnetuin lienee kauppamatkustajan ongelma. Väitöskirjan loppuosa käsittelee muuttujien välisien esi-isäsuhteiden oppimista. Kyseiset suhteet ovat kiinnostavia, sillä ne antavat lisätietoa muuttujien sekä suorista että epäsuorista syy-seuraussuhteista. Väitöskirjassa esitetään algoritmi esi-isäsuhteiden todennäköisyyksien laskemiseen. Algoritmin toimintaa tutkitaan käytännössä ja todetaan, että esi-isäsuhteita pystytään oppimaan melko hyvin jopa silloin, kun useat havaitsemattomat muuttujat vaikuttavat aineiston muuttujiin

    Methods for Answer Extraction in Textual Question Answering

    Get PDF
    In this thesis we present and evaluate two pattern matching based methods for answer extraction in textual question answering systems. A textual question answering system is a system that seeks answers to natural language questions from unstructured text. Textual question answering systems are an important research problem because as the amount of natural language text in digital format grows all the time, the need for novel methods for pinpointing important knowledge from the vast textual databases becomes more and more urgent. We concentrate on developing methods for the automatic creation of answer extraction patterns. A new type of extraction pattern is developed also. The pattern matching based approach chosen is interesting because of its language and application independence. The answer extraction methods are developed in the framework of our own question answering system. Publicly available datasets in English are used as training and evaluation data for the methods. The techniques developed are based on the well known methods of sequence alignment and hierarchical clustering. The similarity metric used is based on edit distance. The main conclusions of the research are that answer extraction patterns consisting of the most important words of the question and of the following information extracted from the answer context: plain words, part-of-speech tags, punctuation marks and capitalization patterns, can be used in the answer extraction module of a question answering system. This type of patterns and the two new methods for generating answer extraction patterns provide average results when compared to those produced by other systems using the same dataset. However, most answer extraction methods in the question answering systems tested with the same dataset are both hand crafted and based on a system-specific and fine-grained question classification. The the new methods developed in this thesis require no manual creation of answer extraction patterns. As a source of knowledge, they require a dataset of sample questions and answers, as well as a set of text documents that contain answers to most of the questions. The question classification used in the training data is a standard one and provided already in the publicly available data.Tekstuaalinen kysymysvastausjärjestelmä on tietokoneohjelma, joka vastaa käyttäjän esittämiin kysymyksiin tekstidokumenteista eristämillään vastauksilla. Tekstuaaliset kysymysvastausjärjestelmät ovat tärkeä tutkimusongelma, sillä digitaalisessa muodossa olevien tekstidokumenttien määrä lisääntyy jatkuvasti. Samalla kasvaa myös sellaisten tiedonhakumenetelmien tarve, joiden avulla käyttäjä löytää tekstidokumenteista olleellisen tiedon nopeasti ja helposti. Kysymysvastausjärjestelmiä on tutkittu jo 1960-luvulta alkaen. Ensimmäiset järjestelmät osasivat vastata suppeaan joukkoon määrämuotoisia kysymyksiä, jotka koskivat jotakin tarkasti rajattua aihepiiriä kuten pesäpallotuloksia. Nykyään kysymysvastausjärjestelmien tutkimuksessa keskitytään järjestelmiin, joissa kysymykset voivat olla melko vapaasti muotoiltuja ja ne voivat liittyä mihin tahansa aihepiiriin. Nykyjärjestelmissä tiedonhaku kohdistuu usein laajoihin tekstidokumenttikokoelmiin kuten WWW:hen ja sanomalehtien uutisarkistoihin. Toisaalta myös rajatun aihepiirin järjestelmät ovat yhä tärkeä tutkimuskohde. Käytännön esimerkkejä rajatun aihepiirin järjestelmistä ovat yritysten asiakaspalvelua helpottavat järjestelmät. Nämä järjestelmät käsittelevät automaattisesti osan asiakkaiden yritykselle osoittamista kysymyksistä tai toimivat asiakasneuvojan apuvälineenä hänen etsiessään tietoa asiakkaan kysymykseen. Tässä väitöskirjassa kehitetyt menetelmät ovat sovellettavissa sekä avoimen että rajatun aihepiirin kysymysvastausjärjestelmiin. Väitöskirjassa on kehitetty kaksi uutta menetelmää vastausten eristämiseksi tekstistä ja tekstuaalinen kysymysvastausjärjestelmä, joka käyttää molempia menetelmiä. Menetelmät on arvioitu julkisesti saatavilla olevalla testidatalla. Väitöskirjassa kehitetyt vastauksen eristämismenetelmät ovat oppivia. Oppivuudella tarkoitetaan sitä, että vastausten eristämiseen käytettäviä hahmoja ei tarvitse ohjelmoida, vaan ne tuotetaan automaattisesti esimerkkidatan perusteella. Oppivuudella tehostetaan uusien kysymysvastausjärjestelmien kehittämistä. Tehokas järjestelmäkehitys on erityisen tärkeää silloin kun järjestelmästä tarvitaan useita kieliversioita. Myös uusien kysymys- ja tekstityyppien lisääminen järjestelmään helpottuu oppivan menetelmän ansiosta
    corecore