8 research outputs found

    Rule-based filtering algorithm for textual document

    Get PDF
    Textual document is usually in unstructured form and high dimensional data.The exploration of hidden information from the unstructured text is useful to find interesting patterns and valuable knowledge.However, not all terms in the text are relevant and can lead to misclassification. Improper filtration might cause terms that have similar meaning to be removed.Thus, to reduce the high-dimensionality of text, this study proposed a filtering algorithm that is able to filter the important terms from the pre-processed text and applied term weighting scheme to solve synonym problem which will help the selection of relevant term.The proposed filtering algorithm utilizes a keyword library that contained special terms which is developed to ensure that important terms are not eliminated during filtration process.The performance of the proposed filtering algorithm is compared with rough set attribute reduction (RSAR) and information retrieval (IR) approaches.From the experiment, the proposed filtering algorithm has outperformed both RSAR and IR in terms of extracted relevant terms

    Towards semantic interpretation of clinical narratives with ontology-based text mining

    Get PDF
    In the realm of knee pathology, magnetic resonance imaging (MRI) has the advantage of visualising all structures within the knee joint, which makes it a valuable tool for increasing diagnostic accuracy and planning surgical treatments. Therefore, clinical narratives found in MRI reports convey valuable diagnostic information. A range of studies have proven the feasibility of natural language processing for information extraction from clinical narratives. However, no study focused specifically on MRI reports in relation to knee pathology, possibly due to the complexity of knee anatomy and a wide range of conditions that may be associated with different anatomical entities. In this thesis, we describe KneeTex, an information extraction system that operates in this domain. As an ontology-driven information extraction system, KneeTex makes active use of an ontology to strongly guide and constrain text analysis. We used automatic term recognition to facilitate the development of a domain-specific ontology with sufficient detail and coverage for text mining applications. In combination with the ontology, high regularity of the sublanguage used in knee MRI reports allowed us to model its processing by a set of sophisticated lexico-semantic rules with minimal syntactic analysis. The main processing steps involve named entity recognition combined with coordination, enumeration, ambiguity and co-reference resolution, followed by text segmentation. Ontology-based semantic typing is then used to drive the template filling process. We adopted an existing ontology, TRAK (Taxonomy for RehAbilitation of Knee conditions), for use within KneeTex. The original TRAK ontology expanded from 1,292 concepts, 1,720 synonyms and 518 relationship instances to 1,621 concepts, 2,550 synonyms and 560 relationship instances. This provided KneeTex with a very fine-grained lexicosemantic knowledge base, which is highly attuned to the given sublanguage. Information extraction results were evaluated on a test set of 100 MRI reports. A gold standard consisted of 1,259 filled template records with the following slots: finding, finding qualifier, negation, certainty, anatomy and anatomy qualifier. KneeTex extracted information with precision of 98.00%, recall of 97.63% and F-measure of 97.81%, the values of which are in line with human-like performance. To demonstrate the utility of formally structuring clinical narratives and possible applications in epidemiology, we describe an implementation of KneeBase, a web-based information retrieval system that supports complex searches over the results obtained via KneeTex. It is the structured nature of extracted information that allows queries that encode not only search terms, but also relationships between them (e.g. between clinical findings and anatomical locations). This is of particular value for large-scale epidemiology studies based on qualitative evidence, whose main bottleneck involves manual inspection of many text documents. The two systems presented in this dissertation, KneeTex and KneeBase, operate in a specific domain, but illustrate generic principles for rapid development of clinical text mining systems. The key enabler of such systems is the existence of an appropriate ontology. To tackle this issue, we proposed a strategy for ontology expansion, which proved effective in fast–tracking the development of our information extraction and retrieval systems

    Automatizované metody popisu struktury odborného textu a vztah některých prvků ke kvalitě textu

    Get PDF
    Universal Semantic Language (USL) is a semi-formalized approach for the description of knowledge (a knowledge representation tool). The idea of USL was introduced by Vladimir Smetacek in the system called SEMAN which was used for keyword extraction tasks in the former Information centre of the Czechoslovak Republic. However due to the dissolution of the centre in early 90's, the system has been lost. This thesis reintroduces the idea of USL in a new context of quantitative content analysis. First we introduce the historical background and the problems of semantics and knowledge representation, semes, semantic fields, semantic primes and universals. The basic methodology of content analysis studies is illustrated on the example of three content analysis tools and we describe the architecture of a new system. The application was built specifically for USL discovery but it can work also in the context of classical content analysis. It contains Natural Language Processing (NLP) components and employs the algorithm for collocation discovery adapted for the case of cooccurences search between semantic annotations. The software is evaluated by comparing its pattern matching mechanism against another existing and established extractor. The semantic translation mechanism is evaluated in the task of...Univerzální sémantický jazyk (USJ) je semi-formalizovaný způsob zápisu znalostí (systém pro reprezentaci znalostí). Myšlenka USJ byla rozvinuta Vladimírem Smetáčkem v 80. letech při pracech na systému SÉMAN (Universální semantický analyzátor). Tento systém byl využíván pro automatizovanou extrakci klíčových slov v tehdejším informačním centru ČSSR. Avšak se zánikem centra v 90. letech byl systém SEMAN ztracen. Tato dizertace oživuje myšlenku USJ v novém kontextu automatizované obsahové analýzy. Nejdříve prezentujeme historický kontext a problémy spojené s reprezentací znalostí, sémů, sémantických polí, sémantických primitivů a univerzálií. Dále je představena metodika kvantitativní obsahové analýzy na příkladu tří klasických aplikací. Podrobně popíšeme architekturu nové aplikace, která byla vyvinuta speciálně pro potřeby evaluace USJ. Program může fungovat jako nástroj pro klasickou obsahovou analýzu, avšak obsahuje i nástroje pro zpracování přirozeného jazyka (NLP) a využívá algoritmů pro vyhledávání kolokací. Tyto byly upraveny pro potřeby vyhledávání vazeb mezi sémantickými anotacemi. Jednotlivé součásti programu jsou podrobeny praktickým testům. Subsystém pro vyhledávní vzorů v textech je porovnán s existujícím extraktorem klíčových slov. Mechanismus pro překlad do sémantických kódů je...Institute of Information Studies and LibrarianshipÚstav informačních studií a knihovnictvíFilozofická fakultaFaculty of Art

    Der Hannover Concordancer und das Hannover Advanced Academic Writing Corpus: Eine korpuslinguistische Software mit dem dazugehörigen Dissertationskorpus für den Einsatz in Schreibberatungen

    Get PDF
    Bildungseinrichtungen funktionieren, trotz aller romantischen Bildungsideale, nach wirtschaftlichen Prinzipien. Eine höhere Bildungseinrichtung wie eine Universität oder Fachhochschule wird in Fakultäten unterteilt und diese in Institute. An diesen Instituten arbeiten Professor_innen und ein akademischer Mittelbau. Zusätzlich unterstützen Mitarbeiter_innen den Lehrbetrieb in Technik und Verwaltung. Sowohl das Personal als auch die Infrastruktur kosten Geld. Das bedeutet, dass mit begrenzten finanziellen Mitteln eine gewisse Anzahl an Studienplätzen realisiert werden kann. Da vielfach die Anzahl an Studieninteressierten größer ist als die Anzahl an Studienplätzen, werden nur die erfolgversprechendsten Bewerber_innen akzeptiert. Manche Studiengänge nutzen die ersten Semester, um die Anzahl der Studierenden weiter zu reduzieren. Im Verlauf des Studiums versucht die Bildungseinrichtung durch weitere Angebote wie Schreibzentren, Studierende zu ihrem Abschluss zu führen, um die aufgewendeten Ressourcen sinnvoll eingesetzt zu haben. Auch wenn diese Beschreibung überspitzt und gleichzeitig simplifiziert ist, so entspricht sie doch in Grundzügen einer wirtschaftlichen Betrachtung von höherer Bildung. Viele Studiengänge befassen sich in ihren ersten Semestern vor allem mit den für das Fachgebiet notwendigen Grundlagen. Akademisches Schreiben gehört außerhalb der Geisteswissenschaften häufig nicht dazu. So kommt es vor, dass vor allem in ingenieur- und naturwissenschaftlichen Studiengängen erst in den letzten beiden Semestern wissenschaftliche Aufsätze geschrieben werden müssen. Um Komplikationen beim wissenschaftlichen Schreiben von Abschlussarbeiten zu vermeiden und damit die von den Bildungseinrichtungen eingesetzten Mittel zu bewahren, haben viele größere Universitäten und Fachhochschulen Schreibzentren eingerichtet. Diese Schreibzentren sollen Studierende in ihren Schreibprozessen begleiten und damit die Wahrscheinlichkeit einer erfolgreichen wissenschaftlichen Arbeit erhöhen. Schreibzentren stehen vor der Herausforderung, dass das Personal, welches sie rekrutieren, vor allem aus Geisteswissenschaftler_innen besteht. Diese kennen sich zwar mit dem Schreiben im Allgemeinen und im Speziellen mit dem Schreiben in geisteswissenschaftlichen Disziplinen aus, sind jedoch häufig mit Studierenden aus anderen akademischen Traditionen konfrontiert. Vor allem, wenn die Studierenden ihre Arbeiten in einer Fremdsprache verfassen müssen, ergeben sich zusätzliche Herausforderungen. In dieser Situation reichen allgemeine Hinweise zu Herangehensweisen an akademisches Schreiben und die Vermittlung von unterschiedlichen Zitierweisen nicht aus. Wenn innerhalb der Schreibberatung auf einzelne Absätze und Formulierungen in Abschlussarbeiten eingegangen werden soll, stellt sich die Frage, mit welchen Mitteln die Erfahrungslücken zwischen den akademischen Traditionen der Schreibberater_innen und der Studierenden zu überbrücken sind. Zwar gibt es für einzelne akademische Disziplinen fachspezifische Handbücher, Nachschlagewerke und Wörterbücher, jedoch sind diese in der Breite unzureichend vorhanden und in der Tiefe teils unbrauchbar, um Schreibberater_innen dabei zu unterstützen, sich sprachlich in die Thematik ihrer Studierenden einzudenken. Studierende wissen sehr wohl, was die von ihnen verwendeten Fachbegriffe bedeuten. Es fehlen ihnen oftmals jedoch die Mittel, diese sinnvoll in den Kontext eines akademischen Aufsatzes einzubetten. Korpuslinguistik würde hier Abhilfe schaffen. Mittels Korpora und einer entsprechenden Software ließe sich die Verwendung von Begriffen in ihrem Kontext betrachten und danach in eigenen Texten nachahmen. Wenn die Software und die Kenntnisse der Nutzer_innen es hergeben, ließe sich die Verwendung eines Suchbegriffs quantifizieren und damit feststellen, ob die einzelne Verwendung eine Ausnahme oder doch die Regel ist. Allerdings sind bisherige Werkzeuge vor allem auf die Bedürfnisse von Linguist_innen ausgerichtet oder aber basieren auf Textgrundlagen, die zu allgemein für Schreibberatungen sind. Aus diesem Grund haben sich korpuslinguistische Werkzeuge wie AntConc oder WordSmithTools bisher  vielfach nicht durchgesetzt. Die dieser Arbeit zu Grunde liegende Software soll eine Unterstützung für Schreibberatungen sein, um den Mangel an adäquaten Hilfsmitteln zu reduzieren. Mit HanConc soll es Schreibberater_innen ermöglicht werden, fachspezifische Textsammlungen anzulegen, zu durchsuchen und die Ergebnisse adressatengerecht aufzubereiten. Damit wird die Beratung über wissenschaftliche Disziplinen hinweg vereinfacht und somit die Erfolgswahrscheinlichkeit von Schreibberatung für Studierende erhöht. Die Arbeit ist wie folgt gegliedert: Zunächst wird der inhaltliche Rahmen abgesteckt. Anschließend wird die Zusammenarbeit von Schreibberater_innen und Studierenden innerhalb des akademischen Schreibprozesses analysiert. Am Beispiel der HanConc werden die universitären Anforderungen an Schreibberatung ermittelt und mit dem tatsächlichen Aufwand eines Schreibberaters, d.h. in diesem Fall des Autors, verglichen. Mit Hilfe einer Umfrage wird überprüft, ob sich die Ergebnisse des Vergleichs mit den Erfahrungen anderer Schreibzentren an anderen deutschen Bildungseinrichtungen decken. Um die Anforderungen von Schreibberatungen an HanConc zu erfüllen, wurde ein Korpus bestehend aus allen Dissertationen der HanConc erstellt. Dieses Korpus wird eingehend beschrieben und auf die Homogenität innerhalb und Heterogenität außerhalb der Fakultätsgrenzen überprüft. Abschließend wird HanConc im Vergleich zu bestehenden Werkzeugen als Antwort auf die skizzierten Anforderungen vorgestellt. Der Quellcode inklusive ausführlicher Dokumentation befindet sich in einem gesonderten Repositorium
    corecore