Search CORE

657 research outputs found

Lessons Learned from Tagging Clinical Hungarian

Author: Novák Attila
Orosz György
Prószéky Gábor
Publication venue: Bahri Publications
Publication date: 01/01/2014
Field of study

Restoring the intended structure of Hungarian ophthalmology documents

Author: Novák Attila
Siklósi Borbála
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2015
Field of study

Clinical documents have been an emerg- ing target of natural language applications. Information stored in documents created at clinical settings can be very useful for doctors or medical experts. However, the way these documents are created and stored is often a hindrance to accessing their content. In this paper, an automatic method for restoring the intended structure of Hungarian ophthalmology documents is described. The statements in these docu- ments in their original form appeared un- der various subheadings. We successfully applied our method for reassigning the correct heading for each line based on its content. The results show that the cate- gorization was correct for 81.99% of the statements in our testset, compared to a human categorization

Crossref

Repository of the Academy's Library

Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

Author: Novák Attila
Siklósi Borbála
Publication venue: Szegedi Tudományegyetem Informatikai Tanszékcsoport
Publication date: 01/01/2015
Field of study

A kórházi körülmények között létrejövő klinikai dokumentu- mok feldolgozása a nyelvtechnológia egyik központi kutatás i területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű sz övegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. To vábbá számos olyan feladat van, amelyek során a szakkifejezések azonosítás a és a közöt tük lévő kapcsolatok meghatározása nagyon fontos lépés, azo nban csak külső lexikai erőforrások, tezauruszok és ontológiák segít ségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő informác iók annotálása és rendszerezése emberi szakértői munkát igényel. Ebb en a cikkben bemutatjuk,hogy statisztikai módszerekkel milyen módon al akíthatók át a nyers dokumentumok egy olyan előfeldolgozott,részben str ukturált for mára,ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz fel használásával alkalmazott modulok felismerik és feloldják a r övidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű repre zentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klasz terek azonosítóját helyettesítve a szövegek egyszerűsíthe tőek, a gyakran ismétlődő mintázatok általános alakja meghatározható

University of Szeged

Repository of the Academy's Library

Proceedings of the workshop on language technology for normalisation of less-resourced languages (SaLTMiL 8 - AfLaT 2012)

Author: De Pauw Guy
de Schryver Gilles-Maurice
Forcada Mike L
Sarasola Kepa
Tyers Francis M
Wagacha Peter W
Publication venue: European Language Resources Association
Publication date: 01/01/2012
Field of study

Ghent University Academic Bibliography

Genetics of celiac disease and its diagnostic value

Author: Romanos Jihane
Publication venue: s.n.
Publication date: 01/01/2011
Field of study

Proceedings - University of Groningen

Genetics of celiac disease and its diagnostic value

Author: Romanos Jihane
Publication venue: s.n.
Publication date: 01/01/2011
Field of study

ARTS repository - University of Groningen

Digitális Konzílium : egy szemészeti klinikai keresőrendszer

Author: Novák Attila
Siklósi Borbála
Publication venue
Publication date: 01/01/2016
Field of study

A klinikai dokumentumok feldolgozása a nyelvtechnológia egyik kiemelkedő és igen hasznos alkalmazási területe. A klinikai körülmények között létrejövő beteglapok igen sok hasznos információt tartalmaznak a beteg mellett az orvosok számára is. Ezek tárolási módja azonban nem teszi lehetővé ezeknek az információknak az elérését. Cikkünkben egy magyar nyelvű szemészeti dokumentumokat feldolgozó láncot és a feldolgozott dokumentumokra épülő összetett keresőrendszer első változatát mutatjuk be. Az alkalmazott módszerek a klinikai dokumentumok sajátosságait veszik figyelembe az előfeldolgozás első lépéseitől kezdve a keresőfelület kialakításáig

University of Szeged

Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

Author: Novák Attila
Siklósi Borbála
Publication venue
Publication date: 01/01/2015
Field of study

A kórházi körülmények között létrejövő klinikai dokumentumok feldolgozása a nyelvtechnológia egyik központi kutatási területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű szövegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. Továbbá számos olyan feladat van, amelyek során a szakkifejezések azonosítása és a közöttük lévő kapcsolatok meghatározása nagyon fontos lépés, azonban csak külső lexikai erőforrások, tezauruszok és ontológiák segítségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő információk annotálása és rendszerezése emberi szakértői munkát igényel. Ebben a cikkben bemutatjuk, hogy statisztikai módszerekkel milyen módon alakíthatók át a nyers dokumentumok egy olyan előfeldolgozott, részben strukturált formára, ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz felhasználásával alkalmazott modulok felismerik és feloldják a rövidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű reprezentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klaszterek azonosítóját helyettesítve a szövegek egyszerűsíthetőek, a gyakran ismétlődő mintázatok általános alakja meghatározható

University of Szeged

Proceedings of the 13th Linguistic Annotation Workshop, August 1, 2019, Florence, Italy

Author: Friedrich Annemarie
Hoek Jet
Zeyrek Deniz
Publication venue
Publication date: 07/07/2023
Field of study

OPUS Augsburg

The strength of co-authorship in gene name disambiguation

Author: A Morgan
AL Barabasi
AS Yeh
B Schijvenaars
D Hanisch
DR Maglott
G Savova
H Liu
H Xu
H Xu
H Xu
IH Witten
J Hakenberg
JR Quinlan
L Chen
L Hirschman
M Weeber
Richárd Farkas
RM Podowski
Publication venue: BioMed Central
Publication date: 01/01/2008
Field of study

Abstract Background A biomedical entity mention in articles and other free texts is often ambiguous. For example, 13% of the gene names (aliases) might refer to more than one gene. The task of Gene Symbol Disambiguation (GSD) – a special case of Word Sense Disambiguation (WSD) – is to assign a unique gene identifier for all identified gene name aliases in biology-related articles. Supervised and unsupervised machine learning WSD techniques have been applied in the biomedical field with promising results. We examine here the utilisation potential of the fact – one of the special features of biological articles – that the authors of the documents are known through graph-based semi-supervised methods for the GSD task. Results Our key hypothesis is that a biologist refers to each particular gene by a fixed gene alias and this holds for the co-authors as well. To make use of the co-authorship information we decided to build the inverse co-author graph on MedLine abstracts. The nodes of the inverse co-author graph are articles and there is an edge between two nodes if and only if the two articles have a mutual author. We introduce here two methods using distances (based on the graph) of abstracts for the GSD task. We found that a disambiguation decision can be made in 85% of cases with an extremely high (99.5%) precision rate just by using information obtained from the inverse co-author graph. We incorporated the co-authorship information into two GSD systems in order to attain full coverage and in experiments our procedure achieved precision of 94.3%, 98.85%, 96.05% and 99.63% on the human, mouse, fly and yeast GSD evaluation sets, respectively. Conclusion Based on the promising results obtained so far we suggest that the co-authorship information and the circumstances of the articles' release (like the title of the journal, the year of publication) can be a crucial building block of any sophisticated similarity measure among biological articles and hence the methods introduced here should be useful for other biomedical natural language processing tasks (like organism or target disease detection) as well.</p

Crossref

Springer - Publisher Connector

Directory of Open Access Journals

PubMed Central