5 research outputs found

    Using Term Position Similarity and Language Modeling for Bilingual Document Alignment

    Get PDF
    The WMT Bilingual Document Alignment Task requires systems to assign source pages to their “translations”, in a big space of possible pairs. We present four methods: The first one uses the term position similarity between candidate document pairs. The second method requires automatically translated versions of the target text, and matches them with the candidates. The third and fourth methods try to overcome some of the challenges presented by the nature of the corpus, by considering the string similarity of source URL and candidate URL, and combining the first two approaches

    Metody pro rozdělování slovních složenin

    No full text
    Jazyky, jako je němčina, holandština, skandinávské jazyky nebo řečtina, na rozdíl od angličtiny netvoří kompozita jako víceslovné výrazy, ale spojením jednotlivých částí do nového slova bez ortografického oddělení. To představuje problém pro řadu úloh zpracování přirozeného jazyka, jako je například statistický strojový překlad či vyhledávání informací. Většina předešlých prací na téma rozkladu složenin na jejich částí se zaměřovala na němčinu. V této práci jsme vyvinuli nový jednoduchý systém založený na nařízeném strojovém učení pro automatický rozklad složenin pro tři reprezentativní kompozitní jazyky: němčina, švédština a maďarština. Součástí práce je vytvoření multilinguální evaluační datové sady z lékařské domény anotováním složenin získaných z korpusu EMEA a vyhodnocení několika variant našeho systému a srovnání s předchozími přístupy. Powered by TCPDF (www.tcpdf.org)Unlike the English language, languages such as German, Dutch, the Skandinavian languages or Greek form compounds not as multi-word expressions, but by combining the parts of the compound into a new word without any orthographical separation. This poses problems for a variety of tasks, such as Statistical Machine Translation or Information Retrieval. Most previous work on the subject of splitting compounds into their parts, or ``decompounding'' has focused on German. In this work, we create a new, simple, unsupervised system for automatic decompounding for three representative compounding languages: German, Swedish, and Hungarian. A multi-lingual evaluation corpus in the medical domain is created from the EMEA corpus, and annotated with regards to compounding. Finally, several variants of our system are evaluated and compared to previous work. Powered by TCPDF (www.tcpdf.org)Institute of Formal and Applied LinguisticsÚstav formální a aplikované lingvistikyMatematicko-fyzikální fakultaFaculty of Mathematics and Physic

    Metody pro rozdělování slovních složenin

    No full text
    Jazyky, jako je němčina, holandština, skandinávské jazyky nebo řečtina, na rozdíl od angličtiny netvoří kompozita jako víceslovné výrazy, ale spojením jednotlivých částí do nového slova bez ortografického oddělení. To představuje problém pro řadu úloh zpracování přirozeného jazyka, jako je například statistický strojový překlad či vyhledávání informací. Většina předešlých prací na téma rozkladu složenin na jejich částí se zaměřovala na němčinu. V této práci jsme vyvinuli nový jednoduchý systém založený na nařízeném strojovém učení pro automatický rozklad složenin pro tři reprezentativní kompozitní jazyky: němčina, švédština a maďarština. Součástí práce je vytvoření multilinguální evaluační datové sady z lékařské domény anotováním složenin získaných z korpusu EMEA a vyhodnocení několika variant našeho systému a srovnání s předchozími přístupy. Powered by TCPDF (www.tcpdf.org)Unlike the English language, languages such as German, Dutch, the Skandinavian languages or Greek form compounds not as multi-word expressions, but by combining the parts of the compound into a new word without any orthographical separation. This poses problems for a variety of tasks, such as Statistical Machine Translation or Information Retrieval. Most previous work on the subject of splitting compounds into their parts, or ``decompounding'' has focused on German. In this work, we create a new, simple, unsupervised system for automatic decompounding for three representative compounding languages: German, Swedish, and Hungarian. A multi-lingual evaluation corpus in the medical domain is created from the EMEA corpus, and annotated with regards to compounding. Finally, several variants of our system are evaluated and compared to previous work. Powered by TCPDF (www.tcpdf.org)Institute of Formal and Applied LinguisticsÚstav formální a aplikované lingvistikyMatematicko-fyzikální fakultaFaculty of Mathematics and Physic

    Splitting word compounds

    No full text
    Unlike the English language, languages such as German, Dutch, the Skandinavian languages or Greek form compounds not as multi-word expressions, but by combining the parts of the compound into a new word without any orthographical separation. This poses problems for a variety of tasks, such as Statistical Machine Translation or Information Retrieval. Most previous work on the subject of splitting compounds into their parts, or ``decompounding'' has focused on German. In this work, we create a new, simple, unsupervised system for automatic decompounding for three representative compounding languages: German, Swedish, and Hungarian. A multi-lingual evaluation corpus in the medical domain is created from the EMEA corpus, and annotated with regards to compounding. Finally, several variants of our system are evaluated and compared to previous work. Powered by TCPDF (www.tcpdf.org

    Prevalence of and association between atopic dermatitis and food sensitivity, food allergy and challenge‐proven food allergy: A systematic review and meta‐analysis

    Get PDF
    Atopic dermatitis (AD) and food allergy (FA) share similar type 2 inflammation and commonly co‐occur, but the precise proportion of AD patients with FA and vice versa, as well as the effect of AD disease severity on the strength of this association remains uncertain. The aim of this comprehensive systematic review and meta‐analysis was to determine the prevalence and bidirectional associations of AD with food sensitivity (FS), FA and challenge‐proven food allergy (CPFA). We searched PubMed and EMBASE and three independent reviewers performed title/abstract and full‐text review and data extraction. Overall, 557 articles (n = 225,568 individuals with AD, n = 1,128,322 reference individuals; n = 1,357,793 individuals with FS, FA or CPFA, n = 1,244,596 reference individuals) were included in quantitative analyses. The overall pooled prevalence of FS, FA and CPFA in individuals with AD were 48.4% (95% confidence interval: 43.7–53.2), 32.7% (28.8–36.6) and 40.7% (34.1–47.5) respectively. AD prevalence among individuals with FS, FA and CPFA were 51.2% (46.3–56.2), 45.3% (41.4–49.3) and 54.9% (47.0–62.8) respectively. Children with AD had higher pooled FS (49.8% (44.4–55.1)) and FA (31.4% (26.9–36.1)) prevalences than adults with AD (28.6% (13.4–46.8) and 24.1% (12.1–38.7) respectively). Prevalences of FS and FA numerically increased with AD severity. FS, FA and CPFA are common comorbidities of AD and are closely related. Physicians should be attentive to this relationship to optimize management and treatment strategies in patients
    corecore