657 research outputs found

    Restoring the intended structure of Hungarian ophthalmology documents

    Get PDF
    Clinical documents have been an emerg- ing target of natural language applications. Information stored in documents created at clinical settings can be very useful for doctors or medical experts. However, the way these documents are created and stored is often a hindrance to accessing their content. In this paper, an automatic method for restoring the intended structure of Hungarian ophthalmology documents is described. The statements in these docu- ments in their original form appeared un- der various subheadings. We successfully applied our method for reassigning the correct heading for each line based on its content. The results show that the cate- gorization was correct for 81.99% of the statements in our testset, compared to a human categorization

    Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

    Get PDF
    A kórházi körülmények között létrejövő klinikai dokumentu- mok feldolgozása a nyelvtechnológia egyik központi kutatás i területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű sz övegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. To vábbá számos olyan feladat van, amelyek során a szakkifejezések azonosítás a és a közöt tük lévő kapcsolatok meghatározása nagyon fontos lépés, azo nban csak külső lexikai erőforrások, tezauruszok és ontológiák segít ségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő informác iók annotálása és rendszerezése emberi szakértői munkát igényel. Ebb en a cikkben bemutatjuk,hogy statisztikai módszerekkel milyen módon al akíthatók át a nyers dokumentumok egy olyan előfeldolgozott,részben str ukturált for mára,ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz fel használásával alkalmazott modulok felismerik és feloldják a r övidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű repre zentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klasz terek azonosítóját helyettesítve a szövegek egyszerűsíthe tőek, a gyakran ismétlődő mintázatok általános alakja meghatározható

    Digitális Konzílium : egy szemészeti klinikai keresőrendszer

    Get PDF
    A klinikai dokumentumok feldolgozása a nyelvtechnológia egyik kiemelkedő és igen hasznos alkalmazási területe. A klinikai körülmények között létrejövő beteglapok igen sok hasznos információt tartalmaznak a beteg mellett az orvosok számára is. Ezek tárolási módja azonban nem teszi lehetővé ezeknek az információknak az elérését. Cikkünkben egy magyar nyelvű szemészeti dokumentumokat feldolgozó láncot és a feldolgozott dokumentumokra épülő összetett keresőrendszer első változatát mutatjuk be. Az alkalmazott módszerek a klinikai dokumentumok sajátosságait veszik figyelembe az előfeldolgozás első lépéseitől kezdve a keresőfelület kialakításáig

    Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

    Get PDF
    A kórházi körülmények között létrejövő klinikai dokumentumok feldolgozása a nyelvtechnológia egyik központi kutatási területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű szövegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. Továbbá számos olyan feladat van, amelyek során a szakkifejezések azonosítása és a közöttük lévő kapcsolatok meghatározása nagyon fontos lépés, azonban csak külső lexikai erőforrások, tezauruszok és ontológiák segítségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő információk annotálása és rendszerezése emberi szakértői munkát igényel. Ebben a cikkben bemutatjuk, hogy statisztikai módszerekkel milyen módon alakíthatók át a nyers dokumentumok egy olyan előfeldolgozott, részben strukturált formára, ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz felhasználásával alkalmazott modulok felismerik és feloldják a rövidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű reprezentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klaszterek azonosítóját helyettesítve a szövegek egyszerűsíthetőek, a gyakran ismétlődő mintázatok általános alakja meghatározható

    The strength of co-authorship in gene name disambiguation

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>A biomedical entity mention in articles and other free texts is often ambiguous. For example, 13% of the gene names (aliases) might refer to more than one gene. The task of Gene Symbol Disambiguation (GSD) – a special case of Word Sense Disambiguation (WSD) – is to assign a unique gene identifier for all identified gene name aliases in biology-related articles. Supervised and unsupervised machine learning WSD techniques have been applied in the biomedical field with promising results. We examine here the utilisation potential of the fact – one of the special features of biological articles – that the authors of the documents are known through graph-based semi-supervised methods for the GSD task.</p> <p>Results</p> <p>Our key hypothesis is that a biologist refers to each particular gene by a fixed gene alias and this holds for the co-authors as well. To make use of the co-authorship information we decided to build the inverse co-author graph on MedLine abstracts. The nodes of the inverse co-author graph are articles and there is an edge between two nodes if and only if the two articles have a mutual author. We introduce here two methods using distances (based on the graph) of abstracts for the GSD task. We found that a disambiguation decision can be made in 85% of cases with an extremely high (99.5%) precision rate just by using information obtained from the inverse co-author graph. We incorporated the co-authorship information into two GSD systems in order to attain full coverage and in experiments our procedure achieved precision of 94.3%, 98.85%, 96.05% and 99.63% on the human, mouse, fly and yeast GSD evaluation sets, respectively.</p> <p>Conclusion</p> <p>Based on the promising results obtained so far we suggest that the co-authorship information and the circumstances of the articles' release (like the title of the journal, the year of publication) can be a crucial building block of any sophisticated similarity measure among biological articles and hence the methods introduced here should be useful for other biomedical natural language processing tasks (like organism or target disease detection) as well.</p
    • …
    corecore