8 research outputs found
Rule-based filtering algorithm for textual document
Textual document is usually in unstructured form and high dimensional data.The exploration of hidden information from the unstructured text is useful to find interesting patterns and valuable knowledge.However, not all terms in the text are
relevant and can lead to misclassification. Improper filtration might cause terms that have similar meaning to be removed.Thus, to reduce the high-dimensionality of text, this study proposed a filtering algorithm that is able to filter the important terms from the pre-processed text and applied term weighting scheme to solve synonym problem which will help the selection of relevant term.The proposed filtering algorithm utilizes a keyword library that contained special terms which is developed to ensure that important terms are not eliminated during filtration process.The performance of the proposed filtering algorithm is compared with rough set attribute reduction (RSAR) and information retrieval (IR) approaches.From the experiment, the proposed filtering algorithm has outperformed both RSAR and IR in terms of extracted relevant terms
Towards semantic interpretation of clinical narratives with ontology-based text mining
In the realm of knee pathology, magnetic resonance imaging (MRI) has the advantage of visualising all structures within the knee joint, which makes it a valuable tool for increasing diagnostic accuracy and planning surgical treatments. Therefore, clinical narratives found in MRI reports convey valuable diagnostic information. A range of studies have proven the feasibility of natural language processing for information extraction from clinical narratives. However, no study focused specifically on MRI reports in relation to knee pathology, possibly due to the complexity of knee anatomy and a wide range of conditions that may be associated with different anatomical entities.
In this thesis, we describe KneeTex, an information extraction system that operates in this domain. As an ontology-driven information extraction system, KneeTex makes active use of an ontology to strongly guide and constrain text analysis. We used automatic term recognition to facilitate the development of a domain-specific ontology with sufficient detail and coverage for text mining applications. In combination with the ontology, high regularity of the sublanguage used in knee MRI reports allowed us to model its processing by a set of sophisticated lexico-semantic rules with minimal syntactic analysis. The main processing steps involve named entity recognition combined with coordination, enumeration, ambiguity and co-reference resolution, followed by text segmentation. Ontology-based semantic typing is then used to drive the template filling process. We adopted an existing ontology, TRAK (Taxonomy for RehAbilitation of Knee conditions), for use within KneeTex. The original TRAK ontology expanded from 1,292 concepts, 1,720 synonyms and 518 relationship instances to 1,621 concepts, 2,550 synonyms and 560 relationship instances. This provided KneeTex with a very fine-grained lexicosemantic knowledge base, which is highly attuned to the given sublanguage. Information extraction results were evaluated on a test set of 100 MRI reports. A gold standard consisted of 1,259 filled template records with the following slots: finding, finding qualifier, negation, certainty, anatomy and anatomy qualifier. KneeTex extracted information with precision of 98.00%, recall of 97.63% and F-measure of 97.81%, the values of which are in line with human-like performance.
To demonstrate the utility of formally structuring clinical narratives and possible applications in epidemiology, we describe an implementation of KneeBase, a web-based information retrieval system that supports complex searches over the results obtained via KneeTex. It is the structured nature of extracted information that allows queries that encode not only search terms, but also relationships between them (e.g. between clinical findings and anatomical locations). This is of particular value for large-scale epidemiology studies based on qualitative evidence, whose main bottleneck involves manual inspection of many text documents.
The two systems presented in this dissertation, KneeTex and KneeBase, operate in a specific domain, but illustrate generic principles for rapid development of clinical text mining systems. The key enabler of such systems is the existence of an appropriate ontology. To tackle this issue, we proposed a strategy for ontology expansion, which proved effective in fast–tracking the development of our information extraction and retrieval systems
Automatizované metody popisu struktury odborného textu a vztah některých prvků ke kvalitě textu
Universal Semantic Language (USL) is a semi-formalized approach for the description of knowledge (a knowledge representation tool). The idea of USL was introduced by Vladimir Smetacek in the system called SEMAN which was used for keyword extraction tasks in the former Information centre of the Czechoslovak Republic. However due to the dissolution of the centre in early 90's, the system has been lost. This thesis reintroduces the idea of USL in a new context of quantitative content analysis. First we introduce the historical background and the problems of semantics and knowledge representation, semes, semantic fields, semantic primes and universals. The basic methodology of content analysis studies is illustrated on the example of three content analysis tools and we describe the architecture of a new system. The application was built specifically for USL discovery but it can work also in the context of classical content analysis. It contains Natural Language Processing (NLP) components and employs the algorithm for collocation discovery adapted for the case of cooccurences search between semantic annotations. The software is evaluated by comparing its pattern matching mechanism against another existing and established extractor. The semantic translation mechanism is evaluated in the task of...UniverzálnĂ sĂ©mantickĂ˝ jazyk (USJ) je semi-formalizovanĂ˝ zpĹŻsob zápisu znalostĂ (systĂ©m pro reprezentaci znalostĂ). Myšlenka USJ byla rozvinuta VladimĂrem Smetáčkem v 80. letech pĹ™i pracech na systĂ©mu SÉMAN (UniversálnĂ semantickĂ˝ analyzátor). Tento systĂ©m byl vyuĹľĂván pro automatizovanou extrakci klĂÄŤovĂ˝ch slov v tehdejšĂm informaÄŤnĂm centru ÄŚSSR. Avšak se zánikem centra v 90. letech byl systĂ©m SEMAN ztracen. Tato dizertace oĹľivuje myšlenku USJ v novĂ©m kontextu automatizovanĂ© obsahovĂ© analĂ˝zy. NejdĹ™Ăve prezentujeme historickĂ˝ kontext a problĂ©my spojenĂ© s reprezentacĂ znalostĂ, sĂ©mĹŻ, sĂ©mantickĂ˝ch polĂ, sĂ©mantickĂ˝ch primitivĹŻ a univerzáliĂ. Dále je pĹ™edstavena metodika kvantitativnĂ obsahovĂ© analĂ˝zy na pĹ™Ăkladu třà klasickĂ˝ch aplikacĂ. PodrobnÄ› popĂšeme architekturu novĂ© aplikace, která byla vyvinuta speciálnÄ› pro potĹ™eby evaluace USJ. Program mĹŻĹľe fungovat jako nástroj pro klasickou obsahovou analĂ˝zu, avšak obsahuje i nástroje pro zpracovánĂ pĹ™irozenĂ©ho jazyka (NLP) a vyuĹľĂvá algoritmĹŻ pro vyhledávánĂ kolokacĂ. Tyto byly upraveny pro potĹ™eby vyhledávánĂ vazeb mezi sĂ©mantickĂ˝mi anotacemi. JednotlivĂ© součásti programu jsou podrobeny praktickĂ˝m testĹŻm. SubsystĂ©m pro vyhledávnĂ vzorĹŻ v textech je porovnán s existujĂcĂm extraktorem klĂÄŤovĂ˝ch slov. Mechanismus pro pĹ™eklad do sĂ©mantickĂ˝ch kĂłdĹŻ je...Institute of Information Studies and LibrarianshipĂšstav informaÄŤnĂch studiĂ a knihovnictvĂFilozofická fakultaFaculty of Art
Der Hannover Concordancer und das Hannover Advanced Academic Writing Corpus: Eine korpuslinguistische Software mit dem dazugehörigen Dissertationskorpus für den Einsatz in Schreibberatungen
Bildungseinrichtungen funktionieren, trotz aller romantischen Bildungsideale, nach wirtschaftlichen Prinzipien. Eine höhere Bildungseinrichtung wie eine Universität oder Fachhochschule wird in Fakultäten unterteilt und diese in Institute. An diesen Instituten arbeiten Professor_innen und ein akademischer Mittelbau. Zusätzlich unterstützen Mitarbeiter_innen den Lehrbetrieb in Technik und Verwaltung. Sowohl das Personal als auch die Infrastruktur kosten Geld. Das bedeutet, dass mit begrenzten finanziellen Mitteln eine gewisse Anzahl an Studienplätzen realisiert werden kann. Da vielfach die Anzahl an Studieninteressierten größer ist als die Anzahl an Studienplätzen, werden nur die erfolgversprechendsten Bewerber_innen akzeptiert. Manche Studiengänge nutzen die ersten Semester, um die Anzahl der Studierenden weiter zu reduzieren. Im Verlauf des Studiums versucht die Bildungseinrichtung durch weitere Angebote wie Schreibzentren, Studierende zu ihrem Abschluss zu führen, um die aufgewendeten Ressourcen sinnvoll eingesetzt zu haben. Auch wenn diese Beschreibung überspitzt und gleichzeitig simplifiziert ist, so entspricht sie doch in Grundzügen einer wirtschaftlichen Betrachtung von höherer Bildung.
Viele Studiengänge befassen sich in ihren ersten Semestern vor allem mit den für das Fachgebiet notwendigen Grundlagen. Akademisches Schreiben gehört außerhalb der Geisteswissenschaften häufig nicht dazu. So kommt es vor, dass vor allem in ingenieur- und naturwissenschaftlichen Studiengängen erst in den letzten beiden Semestern wissenschaftliche Aufsätze geschrieben werden müssen. Um Komplikationen beim wissenschaftlichen Schreiben von Abschlussarbeiten zu vermeiden und damit die von den Bildungseinrichtungen eingesetzten Mittel zu bewahren, haben viele größere Universitäten und Fachhochschulen Schreibzentren eingerichtet. Diese Schreibzentren sollen Studierende in ihren Schreibprozessen begleiten und damit die Wahrscheinlichkeit einer erfolgreichen wissenschaftlichen Arbeit erhöhen.
Schreibzentren stehen vor der Herausforderung, dass das Personal, welches sie rekrutieren, vor allem aus Geisteswissenschaftler_innen besteht. Diese kennen sich zwar mit dem Schreiben im Allgemeinen und im Speziellen mit dem Schreiben in geisteswissenschaftlichen Disziplinen aus, sind jedoch häufig mit Studierenden aus anderen akademischen Traditionen konfrontiert. Vor allem, wenn die Studierenden ihre Arbeiten in einer Fremdsprache verfassen müssen, ergeben sich zusätzliche Herausforderungen. In dieser Situation reichen allgemeine Hinweise zu Herangehensweisen an akademisches Schreiben und die Vermittlung von unterschiedlichen Zitierweisen nicht aus.
Wenn innerhalb der Schreibberatung auf einzelne Absätze und Formulierungen in Abschlussarbeiten eingegangen werden soll, stellt sich die Frage, mit welchen Mitteln die Erfahrungslücken zwischen den akademischen Traditionen der Schreibberater_innen und der Studierenden zu überbrücken sind. Zwar gibt es für einzelne akademische Disziplinen fachspezifische Handbücher, Nachschlagewerke und Wörterbücher, jedoch sind diese in der Breite unzureichend vorhanden und in der Tiefe teils unbrauchbar, um Schreibberater_innen dabei zu unterstützen, sich sprachlich in die Thematik ihrer Studierenden einzudenken. Studierende wissen sehr wohl, was die von ihnen verwendeten Fachbegriffe bedeuten. Es fehlen ihnen oftmals jedoch die Mittel, diese sinnvoll in den Kontext eines akademischen Aufsatzes einzubetten.
Korpuslinguistik würde hier Abhilfe schaffen. Mittels Korpora und einer entsprechenden Software ließe sich die Verwendung von Begriffen in ihrem Kontext betrachten und danach in eigenen Texten nachahmen. Wenn die Software und die Kenntnisse der Nutzer_innen es hergeben, ließe sich die Verwendung eines Suchbegriffs quantifizieren und damit feststellen, ob die einzelne Verwendung eine Ausnahme oder doch die Regel ist. Allerdings sind bisherige Werkzeuge vor allem auf die Bedürfnisse von Linguist_innen ausgerichtet oder aber basieren auf Textgrundlagen, die zu allgemein für Schreibberatungen sind. Aus diesem Grund haben sich korpuslinguistische Werkzeuge wie AntConc oder WordSmithTools bisher  vielfach nicht durchgesetzt.
Die dieser Arbeit zu Grunde liegende Software soll eine Unterstützung für Schreibberatungen sein, um den Mangel an adäquaten Hilfsmitteln zu reduzieren. Mit HanConc soll es Schreibberater_innen ermöglicht werden, fachspezifische Textsammlungen anzulegen, zu durchsuchen und die Ergebnisse adressatengerecht aufzubereiten. Damit wird die Beratung über wissenschaftliche Disziplinen hinweg vereinfacht und somit die Erfolgswahrscheinlichkeit von Schreibberatung für Studierende erhöht.
Die Arbeit ist wie folgt gegliedert: Zunächst wird der inhaltliche Rahmen abgesteckt. Anschließend wird die Zusammenarbeit von Schreibberater_innen und Studierenden innerhalb des akademischen Schreibprozesses analysiert. Am Beispiel der HanConc werden die universitären Anforderungen an Schreibberatung ermittelt und mit dem tatsächlichen Aufwand eines Schreibberaters, d.h. in diesem Fall des Autors, verglichen. Mit Hilfe einer Umfrage wird überprüft, ob sich die Ergebnisse des Vergleichs mit den Erfahrungen anderer Schreibzentren an anderen deutschen Bildungseinrichtungen decken. Um die Anforderungen von Schreibberatungen an HanConc zu erfüllen, wurde ein Korpus bestehend aus allen Dissertationen der HanConc erstellt. Dieses Korpus wird eingehend beschrieben und auf die Homogenität innerhalb und Heterogenität außerhalb der Fakultätsgrenzen überprüft. Abschließend wird HanConc im Vergleich zu bestehenden Werkzeugen als Antwort auf die skizzierten Anforderungen vorgestellt. Der Quellcode inklusive ausführlicher Dokumentation befindet sich in einem gesonderten Repositorium