16 research outputs found

    Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

    Get PDF
    A kórházi körülmények között létrejövő klinikai dokumentu- mok feldolgozása a nyelvtechnológia egyik központi kutatás i területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű sz övegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. To vábbá számos olyan feladat van, amelyek során a szakkifejezések azonosítás a és a közöt tük lévő kapcsolatok meghatározása nagyon fontos lépés, azo nban csak külső lexikai erőforrások, tezauruszok és ontológiák segít ségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő informác iók annotálása és rendszerezése emberi szakértői munkát igényel. Ebb en a cikkben bemutatjuk,hogy statisztikai módszerekkel milyen módon al akíthatók át a nyers dokumentumok egy olyan előfeldolgozott,részben str ukturált for mára,ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz fel használásával alkalmazott modulok felismerik és feloldják a r övidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű repre zentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klasz terek azonosítóját helyettesítve a szövegek egyszerűsíthe tőek, a gyakran ismétlődő mintázatok általános alakja meghatározható

    Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

    Get PDF
    A kórházi körülmények között létrejövő klinikai dokumentumok feldolgozása a nyelvtechnológia egyik központi kutatási területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű szövegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. Továbbá számos olyan feladat van, amelyek során a szakkifejezések azonosítása és a közöttük lévő kapcsolatok meghatározása nagyon fontos lépés, azonban csak külső lexikai erőforrások, tezauruszok és ontológiák segítségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő információk annotálása és rendszerezése emberi szakértői munkát igényel. Ebben a cikkben bemutatjuk, hogy statisztikai módszerekkel milyen módon alakíthatók át a nyers dokumentumok egy olyan előfeldolgozott, részben strukturált formára, ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz felhasználásával alkalmazott modulok felismerik és feloldják a rövidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű reprezentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klaszterek azonosítóját helyettesítve a szövegek egyszerűsíthetőek, a gyakran ismétlődő mintázatok általános alakja meghatározható

    An improved Levenshtein algorithm for spelling correction word candidate list generation

    Get PDF
    Candidates’ list generation in spelling correction is a process of finding words from a lexicon that should be close to the incorrect word. The most widely used algorithm for generating candidates’ list for incorrect words is based on Levenshtein distance. However, this algorithm takes too much time when there is a large number of spelling errors. The reason is that calculating Levenshtein algorithm includes operations that create an array and fill the cells of this array by comparing the characters of an incorrect word with the characters of a word from a lexicon. Since most lexicons contain millions of words, then these operations will be repeated millions of times for each incorrect word to generate its candidates list. This dissertation improved Levenshtein algorithm by designing an operational technique that has been included in this algorithm. The proposed operational technique enhances Levenshtein algorithm in terms of the processing time of its executing without affecting its accuracy. It reduces the operations required to measure cells’ values in the first row, first column, second row, second column, third row, and third column in Levenshtein array. The improved Levenshtein algorithm was evaluated against the original algorithm. Experimental results show that the proposed algorithm outperforms Levenshtein algorithm in terms of the processing time by 36.45% while the accuracy of both algorithms is still the same

    Digitális Konzílium : egy szemészeti klinikai keresőrendszer

    Get PDF
    A klinikai dokumentumok feldolgozása a nyelvtechnológia egyik kiemelkedő és igen hasznos alkalmazási területe. A klinikai körülmények között létrejövő beteglapok igen sok hasznos információt tartalmaznak a beteg mellett az orvosok számára is. Ezek tárolási módja azonban nem teszi lehetővé ezeknek az információknak az elérését. Cikkünkben egy magyar nyelvű szemészeti dokumentumokat feldolgozó láncot és a feldolgozott dokumentumokra épülő összetett keresőrendszer első változatát mutatjuk be. Az alkalmazott módszerek a klinikai dokumentumok sajátosságait veszik figyelembe az előfeldolgozás első lépéseitől kezdve a keresőfelület kialakításáig

    Errors lingüístics en el domini biomèdic: Cap a una tipologia d’errors per a l’espanyol

    Get PDF
    L’objectiu d’aquest treball és l’anàlisi d’errors continguts en un corpus d’informes mèdics en llenguatge natural i el disseny d’una tipologia d’errors, ja que no hi va haver una revisió sistemàtica sobre verificació i correcció d’errors en documentació clínica en castellà. En el desenvolupament de sistemes automàtics de detecció i correcció, és d’interès aprofundir en la naturalesa dels errors lingüístics que es produeixen en els informes clínics per tal de detectar-los i tractar-los adequadament. Els resultats mostren que els errors d’omissió són els més freqüents en la mostra analitzada i que la longitud de la paraula sens dubte influeix en la freqüència d’error. La tipificació dels patrons d’error proporcionats permet el desenvolupament d’un mòdul basat en coneixements lingüístics, actualment en curs, que serà capaç de millorar el rendiment dels sistemes de correcció de detecció i correcció d’errors per al domini biomèdicThe objective of this work is the analysis of errors contained in a corpus of medical reports in natural language and the design of a typology of errors, as there was no systematic review on verification and correction of errors in clinical documentation in Spanish. In the development of automatic detection and correction systems, it is of great interest to delve into the nature of the linguistic errors that occur in clinical reports, in order to detect and treat them properly. The results show that omission errors are the most frequent ones in the analyzed sample, and that word length certainly influences error frequency. The typification of error patterns provided is enabling the development of a module based on linguistic knowledge, which is currently in progress. This will help to improve the performance of error detection and correction systems for the biomedical domain.This work was supported by the Spanish National Research Agency (AEI) through project LaTe4PSP (PID2019-107652RB-I00/AEI/10.13039/501100011033). Furthermore, the main autor is supported by Ministerio de Universidades of Spain through the national program Ayudas para la formación de profesorado universitario (FPU), with reference FPU16/0332

    Rec. et exp. aut. Abbr. mnyelv. KLIN. szöv-ben - rövidítések automatikus felismerése és feloldása magyar nyelvű klinikai szövegekben

    Get PDF
    Az orvosi szövegek feldolgozása ma a nyelvtechnológia egyik legaktívabban kutatott részterülete. Az általános szövegekre ma már jól működő eszközök helyes, normalizált bemenetet feltételeznek. Orvosi szövegek esetén ez a feltétel nem teljesül, ezért az ezekre jellemző nagy mennyiségű zaj miatt kész eszközök alkalmazása nem lehetséges. A normalizálás egyik lépése a rövidítések észlelése és feloldása. Ebben a cikkben egy nem felügyelt automatikus módszert mutatunk be rövidítéssorozatok feloldására magyar nyelvű klinikai dokumentumokban. Három módszert ismertetünk, melyek különböző mértékben támaszkodnak külső erőforrásokra, illetve magára a klinikai korpuszra

    Az orvos-beteg kommunikáció kutatása és a nyelvészet

    Get PDF
    corecore