    View-based user interfaces for the Semantic Web

    This thesis explores the possibilities of using the view-based search paradigm to create intelligent user interfaces on the Semantic Web. After surveying several semantic search techniques, the view-based search paradigm is explained, and argued to fit in a valuable niche in the field. To test the argument, numerous portals with different user interfaces and data were built using the paradigm. Based on the results of these experiments, this thesis argues that the paradigm provides a strong, extensible and flexible base on which to built semantic user interfaces. Designing the actual systems to be as adaptable as possible is also discussed

    Crisp, fuzzy, and probabilistic faceted semantic search

    This dissertation presents contributions to the development of the faceted semantic search (FSS) paradigm. First, two fundamental solutions to FSS, which have been widely used since their development are presented. The first is the projection of search facets from annotation ontologies using logical rules. The second is the logic rule-based generation of recommendation links for search items based on the semantic relations of these items. After presenting these solutions, the rest of the dissertation focuses on solving the following deficiencies of FSS: the lack of capabilities to model uncertainty, the inability to rank search results according to relevance, and the usability problems resulting from naively using annotation ontology concepts as search categories. Two sets of solutions to these problems are presented. First, a fuzzy faceted semantic search (FFSS) framework is developed, which extends the crisp set basis of FSS to fuzzy sets. This framework is based on two main ingredients: First, weighted annotations, which are used to determine the membership degrees of search items in annotation concepts. Second, fuzzy mappings of separate end-user categories onto the annotation concepts. In addition, also a probabilistic faceted semantic search (PFSS) framework was developed, which incorporates weighted annotations, modeling of uncertainty in Semantic Web taxonomies, sophisticated mappings of end-user facets onto annotation ontologies, and the combination of evidence from multiple ranking schemes. These ranking methods were empirically analyzed. According to the preliminary evaluation both ranking methods significantly improve quality of search results compared to crisp FSS. Both also outperformed a currently used heuristical ranking method. However, in the case of FFSS this difference did not reach the level of statistical significance

    Methods for Building Semantic Portals

    Semantic portals are information systems which collect information from several sources and combine them using semantic web technologies into a user interface that solves information needs of users. Creating such portals requires methods and tools from multiple disciplines, including knowledge representation, information retrieval, information extraction, and user interface design. This thesis explores methods for building and improving semantic portals and other semantic web applications with contributions in three areas. The studies included in the thesis draw from the design science methodology in information systems research. First, a method for creating of faceted search user interfaces for semantic portals utilizing controlled vocabularies with a complex hierarchical structure is presented. The results show that the method allows the creation of user-centric search facets that hide the complex hierarchies from the user, resulting in a user-friendly faceted search interface. Second, the creation of structured metadata from text documents is enhanced by adapting a state of the art automatic subject indexing system to Finnish language texts. The results show that using a suitable combination of existing tools, automatic subject indexing quality comparable to that of human indexers can be attained in a highly inflected language such as Finnish. Finally, the quality of controlled vocabularies such as thesauri and lightweight ontologies is examined by developing a set of quality criteria for vocabularies expressed using the SKOS standard, and methods for correcting structural problems in SKOS vocabularies are presented. The results show that most published SKOS vocabularies suffer from quality issues and violate the SKOS integrity conditions. However, the great majority of such problems were corrected by the methods presented in this dissertation. The methods have been implemented in several real world applications, including the HealthFinland health information portal, the ARPA information extraction toolkit, and the ONKI ontology library system.Semanttiset portaalit ovat tietojärjestelmiä, jotka keräävät tietoa useista lähteistä ja yhdistävät ne semanttisen webin teknologioiden avulla käyttäjien tiedontarpeita tukevaksi käyttöliittymäksi. Tällaisten portaalien rakentaminen vaatii menetelmiä ja työkaluja useilta tieteenaloilta, mukaan lukien tietämyksen esittäminen, tiedonhaku, tiedon eristäminen ja käyttöliittymäsuunnittelu. Tässä väitöskirjassa tarkastellaan menetelmiä semanttisten portaalien ja muiden semanttisen webin sovellusten rakentamiseksi. Väitöskirjan tulokset jakaantuvat kolmeen osa-alueeseen. Tutkimuksessa käytetyt menetelmät perustuvat informaatiojärjestelmien tutkimuksessa käytettyihin suunnittelutieteen menetelmiin. Ensiksi väitöskirjassa esitetään menetelmä semanttisten portaalien fasettipohjaisten käyttöliittymien luomiseksi monimutkaisten kontrolloitujen sanastojen pohjalta. Tulokset osoittavat, että menetelmä mahdollistaa sellaisten käyttäjäkeskeisten hakunäkymien luomisen, jotka piilottavat monimutkaiset hierarkiat käyttäjältä ja auttavat siten luomaan käyttäjäystävällisen fasettipohjaisen hakukäyttöliittymän. Toiseksi rakenteisen metatiedon tuottamista tekstidokumenteista parannetaan sovittamalla nykyaikainen automaattisen sisällönkuvailun järjestelmä suomenkieliselle tekstiaineistolle. Tulokset osoittavat, että käyttämällä sopivaa yhdistelmää olemassaolevista työkaluista saavutetaan ihmistyönä tehtyyn sisällönkuvailuun verrattavissa oleva automaattisen sisällönkuvailun laatu myös agglutinatiivisella kielellä kuten suomen kielellä esitetyille aineistoille. Kolmanneksi tarkastellaan kontrolloitujen sanastojen kuten asiasanastojen ja kevytontologioiden laatua kehittämällä laatukriteeristö SKOS-standardin avulla esitetyille sanastoille sekä esittämällä menetelmiä SKOS-sanastojen rakenteisten ongelmien korjaamiseksi. Tulokset osoittavat, että useimmat julkaistut SKOS-sanastot kärsivät laatuongelmista eivätkä noudata SKOS-standardin eheyssääntöjä. Suuri osa näistä ongelmista pystyttiin korjaamaan tässä väitöskirjassa esitetyin menetelmin. Menetelmät on toteutettu useissa käytössä olevissa järjestelmissä, kuten TerveSuomi-terveystietoportaalissa, ARPA-tiedoneristämistyökalussa ja ONKI-ontologiakirjastossa

    Semanttisen webin ontologisen tekstiilikäsitteistön kehittäminen ja liittäminen museoiden luettelointitietoihin

    DEVELOPING A TEXTILE ONTOLOGY FOR THE SEMANTIC WEB AND CONNECTING IT TO MUSEUM CATALOGING DATA The goal of the Semantic Web is to share concept-based information in a versatile way on the Internet. This is achievable using formal data structures called ontologies. The goal of this re-search is to increase the usability of museum cataloging data in information retrieval. The work is interdisciplinary, involving craft science, terminology science, computer science, and museology. In the first part of the dissertation an ontology of concepts of textiles, garments, and accessories is developed for museum cataloging work. The ontology work was done with the help of thesauri, vocabularies, research reports, and standards. The basis of the ontology development was the Museoalan asiasanasto MASA, a thesaurus for museum cataloging work which has been enriched by other vocabularies. Concepts and terms concerning the research object, as well as the material names of textiles, costumes, and accessories, were focused on. The research method was terminological concept analysis complemented by an ontological view of the Semantic Web. The concept structure was based on the hierarchical generic relation. Attention was also paid to other relations between terms and concepts, and between concepts themselves. Altogether 977 concept classes were created. Issues including how to choose and name concepts for the ontology hierarchy and how deep and broad the hierarchy could be are discussed from the viewpoint of the ontology developer and museum cataloger. The second part of the dissertation analyzes why some of the cataloged terms did not match with the developed textile ontology. This problem is significant because it prevents automatic ontological content integration of the cataloged data on the Semantic Web. The research datasets, i.e. the cataloged museum data on textile collections, came from three museums: Espoo City Museum, Lahti City Museum and The National Museum of Finland. The data included 1803 textile, costume, and accessory objects. Unmatched object and textile material names were analyzed. In the case of the object names six categories (475 cases), and of the material names eight categories (423 cases), were found where automatic annotation was not possible. The most common explanation was that the cataloged field was filled with a long sentence comprised of many terms. Sometimes in the compound term, the object name and material, or the name and the way of usage, were combined. As well, numeric values in the material name cataloging field prevented annotation and so did the absence of a corresponding concept in the ontology. Ready-made drop-down lists of materials used in one cataloging system facilitated the annotation. In the case of naming objects and materials, one should use terms in basic form without attributes. The developed textile ontology has been applied in two cultural portals, MuseumFinland and Culturesampo, where one can search for and browse information based on cataloged data using integrated ontologies in an interoperable way. The textile ontology is also part of the national FinnONTO ontology infrastructure. Keywords: annotation, concept, concept analysis, cataloging, museum collection, ontology, Semantic Web, textile collection, textile materialSemanttisen webin tavoitteena on käsitteiden merkitykseen perustuvan tiedon yhdistäminen ja jakaminen verkossa sekä monipuolinen käytettävyys tiedonvälityksessä. Tämä saavutetaan käyttämällä ontologioita, jotka ovat formaaleja tietorakenteita. Tutkimuksen tavoitteena on lisätä museoissa olevien tiedonhallintajärjestelmien luettelointitietojen hyödynnettävyyttä semanttisen webin tiedon yhdistämisessä ja tiedonhaussa. Työ on luonteeltaan tieteidenvälinen ja siinä liikutaan käsityötieteen, terminologian, tietojenkäsittelytieteen, ja museologian leikkausalueella. Tutkimuksen ensimmäisessä vaiheessa kehitettiin ontologinen museokontekstiin sovellettu tekstiili- ja pukinealan käsitteistö. Käsitteiden muokkaamiseksi käytettiin tekstiilejä ja pukineita kuvaavia museo- ja kulttuurialan sanastoja, standardeja ja tutkimuksia. Käsitteistön perusrunkona oli Museoalan asiasanasto MASA, jota rikastettiin muulla aineistolla. Aineistossa keskityttiin esineen nimeä ja materiaaleja kuvaaviin käsitteisiin. Tutkimusmenetelmänä käytettiin terminologista käsiteanalyysiä, johon lisättiin semanttisen webin ontologinen näkökulma. Käsitteistö muokattiin geneerisen hierarkiasuhteen mukaisesti. Huomioon otettiin myös muita käsitteiden välisiä sekä käsitteen ja termin välisiä suhteita. Käsiteluokkia oli yhteensä 977 kappaletta. Työssä tuodaan esille ontologian kehittäjän ja luetteloijan näkökulma hierarkian käsitteiden valintaan, nimeämiseen, hierarkian syvyyteen ja laajuuteen. Tutkimuksen toisessa vaiheessa selvitettiin, miksi osa museoiden tekstiileihin ja pukeneisiin liittyvistä luettelointitiedoista jäivät annotoitumatta kehitettyyn ontologiseen tekstiilikäsitteistöön. Ongelma on keskeinen, koska se estää kokoelmatietojen automaattisen ontologiaperustaisen julkaisemisen semanttisessa webissä. Aineistona käytettiin MuseoSuomi-portaalissa olevien kolmen kulttuurihistoriallisen museon: Espoon kaupunginmuseon, Lahden kaupunginmuseon ja Suomen kansallismuseon tekstiili- ja pukinekokoelmien luettelointitietoja. Aineistossa oli tekstiilejä ja pukineita yhteensä 1803 kappaletta. Tiedoista analysoitiin esineiden annotoitumattomat nimi- ja materiaalikenttien sisällöt. Lähinnä erityisnimien luettelointitermien nimikentän annotoitumisen esteeksi analyysissä löytyi kuusi syykategoriaa (475 tapausta) ja materiaalikenttien analyysissä kahdeksan kategoriaa (423 tapausta). Yleisimpänä annotoitumattomuuden syynä oli molemmissa tapauksissa luettelointikenttien täyttäminen pitkällä, useiden termien lausekkeella. Lisäksi yhdyssanatermiin oli usein yhdistetty esimerkiksi materiaali ja esineen nimi tai käyttötapa ja esineen nimi. Myös luettelointikenttään kirjoitetut numeeriset ilmaisut tai luettelointitermiä vastaavan käsitteen puuttuminen ontologiasta estivät annotoitumisen. Valmiiden valikoiden käyttö materiaalikenttien arvojen kirjaamisessa helpotti tiedon annotoitumista. Luetteloinnissa tulisi esineen nimi ja materiaalikenttien arvot kirjata termin perusmuodossa ilman lisämääreitä. Tutkimustuloksia on hyödynnetty MuseoSuomi- ja Kulttuurisampo-järjestelmissä, joissa museoesineisiin yhteismitallisesti liitettyä tietoa voidaan hakea yhdestä portaalista. Käsitteistö on liitetty osaksi kansallista FinnONTO-ontologiajärjestelmää. Avainsanat: annotointi, käsite, käsiteanalyysi, luettelointi, museokokoelma, ontologia, semanttinen web, tekstiilikokoelma, tekstiilimateriaal

    ONTODELLA -- A Projection and Linking Service for Semantic Web Applications

