5 research outputs found

    Corpus-based population of a mid-level business ontology

    Get PDF
    We describe the creation of a broad mid-level ontology, several thousand nodes, suitable for classification and analysis of business documents of the kind regularly kept in corporate document storage. The main claim of the paper is that we can populate a rich mid-level ontology by largely automatic, corpus-based methods

    A magyar nyelv sajátságaihoz illeszkedő módszerek szövegek automatikus osztályozására

    Get PDF
    A magyar nyelv gazdag morfológiája és agglutináló jellege megkérdőjelezi az angol nyelvre jól működő szövegklasszifikációs technikák változatlan alkalmazását. A legtöbb bevett módszerben szavak előfordulását vizsgáljuk a dokumentumokban, azonban a magyar nyelv esetében a szóalakok nagy száma miatt ez nem tűnik alkalmas megközelítésnek. Jelen cikkben két módszert javaslunk a probléma kezelésére: a már korábban is alkalmazott szótövesítést, illetve n-grammok alapján történő osztályozást. Vizsgálataink azt mutatják, hogy a kisebb apparátust igénylő n-gramm alapú technikák is a szótövesítéshez hasonlóan jó eredményt adnak, és még robosztusabbnak is bizonyulnak annál

    X. Magyar Számítógépes Nyelvészeti Konferencia

    Get PDF

    III. Magyar Számítógépes Nyelvészeti Konferencia

    Get PDF
    corecore