657 research outputs found
Restoring the intended structure of Hungarian ophthalmology documents
Clinical documents have been an emerg-
ing target of natural language applications.
Information stored in documents created
at clinical settings can be very useful for
doctors or medical experts. However,
the way these documents are created and
stored is often a hindrance to accessing
their content. In this paper, an automatic
method for restoring the intended structure
of Hungarian ophthalmology documents is
described. The statements in these docu-
ments in their original form appeared un-
der various subheadings. We successfully
applied our method for reassigning the
correct heading for each line based on its
content. The results show that the cate-
gorization was correct for 81.99% of the
statements in our testset, compared to a
human categorization
Nem felĂĽgyelt mĂłdszerek alkalmazása releváns kifejezĂ©sek azonosĂtására Ă©s csoportosĂtására klinikai dokumentumokban
A kórházi körülmények között létrejövő klinikai dokumentu-
mok feldolgozása a nyelvtechnológia egyik központi kutatás
i területévé
vált az utóbbi időben. A más jellegű, általános nyelvezetű sz
övegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve
gyengĂ©n teljesĂtenek a speciális orvosi szövegek esetĂ©n. To
vábbá számos
olyan feladat van, amelyek során a szakkifejezĂ©sek azonosĂtás
a és a közöt
tük lévő kapcsolatok meghatározása nagyon fontos lépés, azo
nban csak
kĂĽlsĹ‘ lexikai erĹ‘források, tezauruszok Ă©s ontolĂłgiák segĂt
ségével oldhatók
meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok
nem állnak rendelkezésre. Ezért a szövegekben lévő informác
iók annotálása és rendszerezése emberi szakértői munkát igényel. Ebb
en a cikkben
bemutatjuk,hogy statisztikai mĂłdszerekkel milyen mĂłdon al
akĂthatĂłk át
a nyers dokumentumok egy olyan előfeldolgozott,részben str
ukturált for
mára,ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz fel
használásával alkalmazott modulok felismerik és feloldják a r
övidĂtĂ©seket,
azonosĂtják a többszavas kifejezĂ©seket Ă©s meghatározzák azok
hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű repre
zentációját,
ahol az egyes kifejezĂ©sek helyĂ©re a hasonlĂłságuk alapján kialakĂtott klasz
terek azonosĂtĂłját helyettesĂtve a szövegek egyszerűsĂthe
tőek, a gyakran
ismétlődő mintázatok általános alakja meghatározható
Digitális KonzĂlium : egy szemĂ©szeti klinikai keresĹ‘rendszer
A klinikai dokumentumok feldolgozása a nyelvtechnolĂłgia egyik kiemelkedĹ‘ Ă©s igen hasznos alkalmazási terĂĽlete. A klinikai körĂĽlmĂ©nyek között lĂ©trejövĹ‘ beteglapok igen sok hasznos informáciĂłt tartalmaznak a beteg mellett az orvosok számára is. Ezek tárolási mĂłdja azonban nem teszi lehetĹ‘vĂ© ezeknek az informáciĂłknak az elĂ©rĂ©sĂ©t. CikkĂĽnkben egy magyar nyelvű szemĂ©szeti dokumentumokat feldolgozĂł láncot Ă©s a feldolgozott dokumentumokra Ă©pĂĽlĹ‘ összetett keresĹ‘rendszer elsĹ‘ változatát mutatjuk be. Az alkalmazott mĂłdszerek a klinikai dokumentumok sajátosságait veszik figyelembe az elĹ‘feldolgozás elsĹ‘ lĂ©pĂ©seitĹ‘l kezdve a keresĹ‘felĂĽlet kialakĂtásáig
Nem felĂĽgyelt mĂłdszerek alkalmazása releváns kifejezĂ©sek azonosĂtására Ă©s csoportosĂtására klinikai dokumentumokban
A kĂłrházi körĂĽlmĂ©nyek között lĂ©trejövĹ‘ klinikai dokumentumok feldolgozása a nyelvtechnolĂłgia egyik központi kutatási terĂĽletĂ©vĂ© vált az utĂłbbi idĹ‘ben. A más jellegű, általános nyelvezetű szövegek feldolgozására használt kĂ©sz eszközök azonban nem alkalmazhatĂłak, illetve gyengĂ©n teljesĂtenek a speciális orvosi szövegek esetĂ©n. Továbbá számos olyan feladat van, amelyek során a szakkifejezĂ©sek azonosĂtása Ă©s a közöttĂĽk lĂ©vĹ‘ kapcsolatok meghatározása nagyon fontos lĂ©pĂ©s, azonban csak kĂĽlsĹ‘ lexikai erĹ‘források, tezauruszok Ă©s ontolĂłgiák segĂtsĂ©gĂ©vel oldhatĂłk meg. Az olyan kisebb nyelvek esetĂ©n, mint a magyar, ilyen tudásbázisok nem állnak rendelkezĂ©sre. EzĂ©rt a szövegekben lĂ©vĹ‘ informáciĂłk annotálása Ă©s rendszerezĂ©se emberi szakĂ©rtĹ‘i munkát igĂ©nyel. Ebben a cikkben bemutatjuk, hogy statisztikai mĂłdszerekkel milyen mĂłdon alakĂthatĂłk át a nyers dokumentumok egy olyan elĹ‘feldolgozott, rĂ©szben strukturált formára, ami ezt az emberi munkát könnyebbĂ© teszi. A csupán a korpusz felhasználásával alkalmazott modulok felismerik Ă©s feloldják a rövidĂtĂ©seket, azonosĂtják a többszavas kifejezĂ©seket Ă©s meghatározzák azok hasonlĂłságát. VĂ©gĂĽl lĂ©trehoztuk a szövegek egy magasabb szintű reprezentáciĂłját, ahol az egyes kifejezĂ©sek helyĂ©re a hasonlĂłságuk alapján kialakĂtott klaszterek azonosĂtĂłját helyettesĂtve a szövegek egyszerűsĂthetĹ‘ek, a gyakran ismĂ©tlĹ‘dĹ‘ mintázatok általános alakja meghatározhatĂł
The strength of co-authorship in gene name disambiguation
<p>Abstract</p> <p>Background</p> <p>A biomedical entity mention in articles and other free texts is often ambiguous. For example, 13% of the gene names (aliases) might refer to more than one gene. The task of Gene Symbol Disambiguation (GSD) – a special case of Word Sense Disambiguation (WSD) – is to assign a unique gene identifier for all identified gene name aliases in biology-related articles. Supervised and unsupervised machine learning WSD techniques have been applied in the biomedical field with promising results. We examine here the utilisation potential of the fact – one of the special features of biological articles – that the authors of the documents are known through graph-based semi-supervised methods for the GSD task.</p> <p>Results</p> <p>Our key hypothesis is that a biologist refers to each particular gene by a fixed gene alias and this holds for the co-authors as well. To make use of the co-authorship information we decided to build the inverse co-author graph on MedLine abstracts. The nodes of the inverse co-author graph are articles and there is an edge between two nodes if and only if the two articles have a mutual author. We introduce here two methods using distances (based on the graph) of abstracts for the GSD task. We found that a disambiguation decision can be made in 85% of cases with an extremely high (99.5%) precision rate just by using information obtained from the inverse co-author graph. We incorporated the co-authorship information into two GSD systems in order to attain full coverage and in experiments our procedure achieved precision of 94.3%, 98.85%, 96.05% and 99.63% on the human, mouse, fly and yeast GSD evaluation sets, respectively.</p> <p>Conclusion</p> <p>Based on the promising results obtained so far we suggest that the co-authorship information and the circumstances of the articles' release (like the title of the journal, the year of publication) can be a crucial building block of any sophisticated similarity measure among biological articles and hence the methods introduced here should be useful for other biomedical natural language processing tasks (like organism or target disease detection) as well.</p
- …