20 research outputs found

    Testing of Data Warehouse and Business Intelligence Systems

    Get PDF
    Tutkimuksessa keskitytään tietovarasto- ja raportointijärjestelmien testaukseen. Tietovarastojärjestelmät mahdollistavat raportoinnin, jolla pyritään vastaamaan organisaatioiden kasvaviin informaatiotarpeisiin. Vaikka tietovarastoinnin ja raportoinnin käsitteet ovat jo vuosikymmeniä vanhoja, ja tietovarasto- ja raportointijärjestelmiä on hyödynnetty organisaatioissa pitkään, testaus on saanut suhteellisen vähän huomiota. Tietovarasto- ja raportointijärjestelmät tuottavat informaatiota, jonka avulla luodaan tietämystä ja tehdään sekä strategisia että operatiivisia päätöksiä. Oikeiden ja luotettavien päätösten tekeminen edellyttää oikeellista ja luotettavaa informaatiota, mikä edellyttää järjestelmän testausta ennen sen käyttöönottoa ja käyttöönoton jälkeen, sillä tietovarastoon ladataan jatkuvasti uutta tietoa, määrityksiä muutetaan ja uusia informaatiotarpeita herää ajan kuluessa. Tämän tutkimuksen tarkoituksena oli selvittää, miten tietovarasto- ja raportointijärjestelmiä tulisi testata ja mitä testauksessa tulisi ottaa huomioon. Tavoitteena oli muodostaa hyvien käytäntöjen mukaisia suosituksia eri teemoihin liittyen. Tutkimuksen rakenne on kaksijakoinen. Teoreettinen osio perustuu käsiteanalyyttiseen kirjallisuustutkimukseen, jonka tarkoitus oli etsiä vastauksia tutkimuskysymyksiin. Tutkimuskysymykset muodostettiin ennalta valittujen teemojen perusteella. Tutkimuksessa käsiteltäviä teemoja ovat tietovarasto- ja raportointijärjestelmien erityispiirteet testauksen näkökulmasta, testauksen keskeiset haasteet, toistuvat ongelmat, testausprosessi, testausvaiheet sekä asiakkaan tukeminen. Tutkimuksen empiirinen osio toteutettiin näiden teemojen mukaisesti ja siinä noudatettiin toiminta-analyyttistä tutkimusotetta. Empiirinen lähdeaineisto kerättiin teemahaastatteluin. Tutkimuksen tulokset muodostavat laaja-alaisen näkemyksen testauksen hyvistä käytännöistä ja tarjoavat karkean tason suosituksia organisaatioille, jotka hyödyntävät tai aikovat hyödyntää erilaisia tietovarastointisovelluksia liiketoiminnassaan. Nämä suositukset tarjoavat näkökulman, joka koostaa tietovarasto- ja raportointijärjestelmien testaukseen liittyvän perustietämyksen aiheesta kiinnostuneille ja luo samalla lähtökohdat mahdollisille jatkotutkimuksille. Tuloksista käy ilmi, että tietovarasto- ja raportointijärjestelmien testaus eroaa merkittävästi perinteisestä ohjelmistotestauksesta ja pitää sisällään yksityiskohtia, jotka kulminoituvat tietosisältöön ja sen käsittelyyn

    Creating a medical dictionary using word alignment: The influence of sources and resources

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Automatic word alignment of parallel texts with the same content in different languages is among other things used to generate dictionaries for new translations. The quality of the generated word alignment depends on the quality of the input resources. In this paper we report on automatic word alignment of the English and Swedish versions of the medical terminology systems ICD-10, ICF, NCSP, KSH97-P and parts of MeSH and how the terminology systems and type of resources influence the quality.</p> <p>Methods</p> <p>We automatically word aligned the terminology systems using static resources, like dictionaries, statistical resources, like statistically derived dictionaries, and training resources, which were generated from manual word alignment. We varied which part of the terminology systems that we used to generate the resources, which parts that we word aligned and which types of resources we used in the alignment process to explore the influence the different terminology systems and resources have on the recall and precision. After the analysis, we used the best configuration of the automatic word alignment for generation of candidate term pairs. We then manually verified the candidate term pairs and included the correct pairs in an English-Swedish dictionary.</p> <p>Results</p> <p>The results indicate that more resources and resource types give better results but the size of the parts used to generate the resources only partly affects the quality. The most generally useful resources were generated from ICD-10 and resources generated from MeSH were not as general as other resources. Systematic inter-language differences in the structure of the terminology system rubrics make the rubrics harder to align. Manually created training resources give nearly as good results as a union of static resources, statistical resources and training resources and noticeably better results than a union of static resources and statistical resources. The verified English-Swedish dictionary contains 24,000 term pairs in base forms.</p> <p>Conclusion</p> <p>More resources give better results in the automatic word alignment, but some resources only give small improvements. The most important type of resource is training and the most general resources were generated from ICD-10.</p

    Relatório de estágio em farmácia comunitária

    Get PDF
    Relatório de estágio realizado no âmbito do Mestrado Integrado em Ciências Farmacêuticas, apresentado à Faculdade de Farmácia da Universidade de Coimbr

    Testing of Data Warehouse and Business Intelligence Systems

    Get PDF
    Tutkimuksessa keskitytään tietovarasto- ja raportointijärjestelmien testaukseen. Tietovarastojärjestelmät mahdollistavat raportoinnin, jolla pyritään vastaamaan organisaatioiden kasvaviin informaatiotarpeisiin. Vaikka tietovarastoinnin ja raportoinnin käsitteet ovat jo vuosikymmeniä vanhoja, ja tietovarasto- ja raportointijärjestelmiä on hyödynnetty organisaatioissa pitkään, testaus on saanut suhteellisen vähän huomiota. Tietovarasto- ja raportointijärjestelmät tuottavat informaatiota, jonka avulla luodaan tietämystä ja tehdään sekä strategisia että operatiivisia päätöksiä. Oikeiden ja luotettavien päätösten tekeminen edellyttää oikeellista ja luotettavaa informaatiota, mikä edellyttää järjestelmän testausta ennen sen käyttöönottoa ja käyttöönoton jälkeen, sillä tietovarastoon ladataan jatkuvasti uutta tietoa, määrityksiä muutetaan ja uusia informaatiotarpeita herää ajan kuluessa. Tämän tutkimuksen tarkoituksena oli selvittää, miten tietovarasto- ja raportointijärjestelmiä tulisi testata ja mitä testauksessa tulisi ottaa huomioon. Tavoitteena oli muodostaa hyvien käytäntöjen mukaisia suosituksia eri teemoihin liittyen. Tutkimuksen rakenne on kaksijakoinen. Teoreettinen osio perustuu käsiteanalyyttiseen kirjallisuustutkimukseen, jonka tarkoitus oli etsiä vastauksia tutkimuskysymyksiin. Tutkimuskysymykset muodostettiin ennalta valittujen teemojen perusteella. Tutkimuksessa käsiteltäviä teemoja ovat tietovarasto- ja raportointijärjestelmien erityispiirteet testauksen näkökulmasta, testauksen keskeiset haasteet, toistuvat ongelmat, testausprosessi, testausvaiheet sekä asiakkaan tukeminen. Tutkimuksen empiirinen osio toteutettiin näiden teemojen mukaisesti ja siinä noudatettiin toiminta-analyyttistä tutkimusotetta. Empiirinen lähdeaineisto kerättiin teemahaastatteluin. Tutkimuksen tulokset muodostavat laaja-alaisen näkemyksen testauksen hyvistä käytännöistä ja tarjoavat karkean tason suosituksia organisaatioille, jotka hyödyntävät tai aikovat hyödyntää erilaisia tietovarastointisovelluksia liiketoiminnassaan. Nämä suositukset tarjoavat näkökulman, joka koostaa tietovarasto- ja raportointijärjestelmien testaukseen liittyvän perustietämyksen aiheesta kiinnostuneille ja luo samalla lähtökohdat mahdollisille jatkotutkimuksille. Tuloksista käy ilmi, että tietovarasto- ja raportointijärjestelmien testaus eroaa merkittävästi perinteisestä ohjelmistotestauksesta ja pitää sisällään yksityiskohtia, jotka kulminoituvat tietosisältöön ja sen käsittelyyn

    Creating a medical English-Swedish dictionary using interactive word alignment

    Get PDF
    Background: This paper reports on a parallel collection of rubrics from the medical terminology systems ICD-10, ICF, MeSH, NCSP and KSH97-P and its use for semi-automatic creation of an English-Swedish dictionary of medical terminology. The methods presented are relevant for many other West European language pairs than English-Swedish. Methods: The medical terminology systems were collected in electronic format in both English and Swedish and the rubrics were extracted in parallel language pairs. Initially, interactive word alignment was used to create training data from a sample. Then the training data were utilised in automatic word alignment in order to generate candidate term pairs. The last step was manual verification of the term pair candidates. Results: A dictionary of 31,000 verified entries has been created in less than three man weeks, thus with considerably less time and effort needed compared to a manual approach, and without compromising quality. As a side effect of our work we found 40 different translation problems in the terminology systems and these results indicate the power of the method for finding inconsistencies in terminology translations. We also report on some factors that may contribute to making the process of dictionary creation with similar tools even more expedient. Finally, the contribution is discussed in relation to other ongoing efforts in constructing medical lexicons for non-English languages. Conclusion: In three man weeks we were able to produce a medical English-Swedish dictionary consisting of 31,000 entries and also found hidden translation errors in the utilized medical terminology systems. © 2006 Nyström et al, licensee BioMed Central Ltd.Original Publication:Mikael Nyström, Magnus Merkel, Lars Ahrenberg, Pierre Zweigenbaum, Håkan Petersson and Hans Åhlfeldt, Creating a medical English-Swedish dictionary using interactive word alignment, 2006, BMC Medical Informatics and Decision Making, (6), 35.http://dx.doi.org/10.1186/1472-6947-6-35Licensee: BioMed Centralhttp://www.biomedcentral.com

    Universal Dependencies 2.0 – CoNLL 2017 Shared Task Development and Test Data

    No full text
    Universal Dependencies is a project that seeks to develop cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). This release contains the test data used in the CoNLL 2017 shared task on parsing Universal Dependencies. Due to the shared task the test data was held hidden and not released together with the training and development data of UD 2.0. Therefore this release complements the UD 2.0 release (http://hdl.handle.net/11234/1-1983) to a full release of UD treebanks. In addition, the present release contains 18 new parallel test sets and 4 test sets in surprise languages. The present release also includes the development data already released with UD 2.0. Unlike regular UD releases, this one uses the folder-file structure that was visible to the systems participating in the shared task

    Universal Dependencies 2.1

    No full text
    LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University - Corpus - Project code: 15-10472S; Project name: Morphologically and Syntactically Annotated Corpora of Many LanguagesUniversal Dependencies is a project that seeks to develop cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008).http://hdl.handle.net/11234/1-251

    Universal Dependencies 2.1

    No full text
    Universal Dependencies is a project that seeks to develop cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008)

    Universal Dependencies 2.2

    Get PDF
    LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles Universit