614 research outputs found

    Robustes chunkparsing mit variabler Analysetiefe

    Get PDF
    Das Chunkparsing bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen

    Wissenschaftlich-Technischer Jahresbericht 1993

    Get PDF

    Wissenschaftlich-Technischer Jahresbericht 1993

    Get PDF

    Verzeichnis von Softwarekomponenten für natürlichsprachliche Systeme : Ergebnisse einer Umfrage im Rahmen der VERBMOBIL-Vorbereitung

    Get PDF
    Das DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) wurde vom BMFT (Bundesministerium für Forschung und Technologie) mit der Durchführung einer Umfrage zu existierenden Software-Komponenten im Bereich Verarbeitung natürlicher Sprache beauftragt (413 - 4001 - 01 IV 201). Das Ziel der Umfrage war die Erstellung einer Übersicht von in Deutschland verfügbaren Software-Komponenten, die im Bereich der natürlichsprachlichen Systeme für das Projekt VERBMOBIL relevant sein könnten. Das Ergebnis dieser Umfrage liegt nun vor. Zur Durchführung der Umfrage wurde ein Fragebogen erstellt, der im März 1992 über die News-Gruppe mod-ki verbreitet und außerdem an ca. 400 Adressen geschickt wurde (Mitglieder der Gesellschaft für Informatik e. V. FA 1.3 1 "Natürliche Sprache", Mitglieder der DGfS, Sektion Computerlinguistik). Das Verzeichnis ist auf in Deutschland entwickelte Software beschränkt und enthält akademische, kommerzielle und geschützte Software, wobei jeweils angegeben ist, unter welchen Bedingungen die Komponenten erhältlich sind

    Verzeichnis von Softwarekomponenten für natürlichsprachliche Systeme : Ergebnisse einer Umfrage im Rahmen der VERBMOBIL-Vorbereitung

    Get PDF
    Das DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) wurde vom BMFT (Bundesministerium für Forschung und Technologie) mit der Durchführung einer Umfrage zu existierenden Software-Komponenten im Bereich Verarbeitung natürlicher Sprache beauftragt (413 - 4001 - 01 IV 201). Das Ziel der Umfrage war die Erstellung einer Übersicht von in Deutschland verfügbaren Software-Komponenten, die im Bereich der natürlichsprachlichen Systeme für das Projekt VERBMOBIL relevant sein könnten. Das Ergebnis dieser Umfrage liegt nun vor. Zur Durchführung der Umfrage wurde ein Fragebogen erstellt, der im März 1992 über die News-Gruppe mod-ki verbreitet und außerdem an ca. 400 Adressen geschickt wurde (Mitglieder der Gesellschaft für Informatik e. V. FA 1.3 1 "Natürliche Sprache", Mitglieder der DGfS, Sektion Computerlinguistik). Das Verzeichnis ist auf in Deutschland entwickelte Software beschränkt und enthält akademische, kommerzielle und geschützte Software, wobei jeweils angegeben ist, unter welchen Bedingungen die Komponenten erhältlich sind

    Einsatz semantischer Technologien für die Anforderungsanalyse

    Full text link
    Softwareentwicklung im betrieblichen Kontext erfordert neben dem Zusammenspiel verschiedener Technologien auch die Zusammenarbeit mehrerer Beteiligter. Dank der Einführung von Standards und der damit einhergehenden Vereinheitlichung von Notationen und Schnittstellen wurde in den letzten Jahren das Zusammenspiel der verschiedenen Technolo-gien an vielen Stellen entscheidend vereinfacht. So hat sich beispielsweise UML (Unified Modeling Language) als Standard für den Softwareentwurf etabliert. Ebenfalls wurde eine große Zahl von Methoden und Werkzeugen entwickelt, die zur Unterstützung der Software-entwicklung im Ganzen verwendet werden können oder speziell auf die Unterstützung der Zusammenarbeit der Beteiligten ausgerichtet sind. Trotz dieser Verbesserungen bleiben einige Probleme im Spannungsumfeld der Softwareentwicklung bestehen. So wird während des Softwareentwicklungsprozesses eine Vielzahl an Artefakten erstellt, ohne dass die Nachver-folgbarkeit zwischen diesen Artefakten dauerhaft sichergestellt wird

    Wissenschaftlich-Technischer Jahresbericht 1992

    Get PDF

    Automatische Diagnosekodierung mit XDIAG : Konzeption und Evaluation eines heuristischen Verfahrens zur leitbegrifforientierten automatischen Diagnosekodierung auf Basis der Daten des ICD10-Diagnosen-Thesaurus

    Get PDF
    In der medizinischen Praxis in Deutschland ist Klassifikation als essentieller Bestandteil der Dokumentation in vielen Bereichen durch gesetzliche Regelungen vorgeschrieben. Über diesen gesetzlich determinierten Rahmen hinaus können durch Klassifikation vergleichbar gemachte Informationen als Basis neuer wissenschaftlicher Erkenntnisse herangezogen werden und weiterhin helfen, bestehende Lehrmeinungen zu evaluieren. Ein Blick auf die im medizinischen Umfeld vorhandene organisatorische Realisierung der Klassifikation zeigt, daß diese in der Regel von medizinisch qualifiziertem Fachpersonal neben der eigentlichen Tätigkeit durchgeführt wird. Eine Klassifikation vorhandener Dokumentationen im Sinne einer Erschließung zusätzlicher wertvoller Informationsquellen über den gesetzlichen Mindestumfang hinaus scheitert somit häufig an der organisatorisch bedingten Überlastung der eingesetzten Mitarbeiter. Eine Unterstützung medizinischer Klassifikation in der Praxis durch den geeigneten Einsatz von Informationstechnologie (IT) erscheint somit sinnvoll und wünschenswert. Im Rahmen der vorliegenden Arbeit wird ein entsprechender Ansatz in Form eines entwickelten Prototypen (XDIAG) vorgestellt und evaluiert. Der entwickelte Prototyp realisiert ein IT-gestütztes leitbegrifforientiertes Verfahren zur automatischen Kodierung von Diagnosen auf Basis vorliegender medizinischer Freitexte. Die hierbei realisierten Ansätze und Verfahren folgen den Vorschlägen von Herrn D. Schalck und sind somit das Resultat langjähriger intensiver und praxisnaher Beschäftigung mit Fragen medizinischer Freitextverarbeitung und Klassifikation. Die besondere Vorgehensweise verleiht dem vorgestellten Prototypen den Charakter einer Heuristik. In Abgrenzung zu zahlreichen bestehenden Verfahren erfolgt eine konsequente Reduktion der Komplexität der eingesetzten Algorithmen und Stammdaten durch einen Verzicht auf eine tiefgreifende linguistische Analyse der zur Kodierung vorgelegten Texte. Durch diesen Verzicht kann auf die Verwendung einer Grammatik und somit auf die Verwendung komplexer Stammdaten verzichtet werden. Als Stammdatenbasis werden vielmehr Datenbestände verwendet, die entweder besonders leicht zu pflegen sind oder aber ohnehin permanent im Rahmen von Langzeitprojekten gepflegt werden. An dieser Stelle spielt insbesondere der ICD10-Diagnosen-Thesaurus mit seiner umfassenden und besonders praxisorientierten Begriffsmenge eine wichtige Rolle. In Erweiterung bestehender Verfahren bietet der vorgestellte Prototyp darüber hinaus die Möglichkeit, mehrere medizinische Diagnosen im Rahmen eines Satzes zu kodieren. Weiterhin können dem Benutzer interaktiv qualifizierte Fehlerhinweise mit dem Ziel einer verbesserten Kodierung bereitgestellt werden. Als Ergebnis der Evaluation des realisierten Prototypen läßt sich festhalten, daß die hierbei eingesetzten Verfahren helfen können, eine synergistische Brücke zwischen praktischer Medizin, medizinischer Verwaltung und medizinischer Forschung zu schlagen, wenn sie an der richtigen Stelle und mit der richtigen Motivation eingesetzt werden.In many areas of medical practice in Germany the classification, an essential part of documentation, is regulated by a legal framework. Beyond this regulatory framework, classification has the ability to make comparative information possible which may be used as a basis for research and also aids the evaluation of current doctrines. When assessing the current organisation of classification in the medical environment, it becomes apparent that this is generally performed by qualified professional staff in line with their actual job description. The classification of existing medical information using additional and useful sources of information beyond the legally required minimum, often fails due to the lack of time staff have because of heavy work load. Subsequently, the support of medical classification in practice through the employment of appropriate Information Technology seems practical and desirable. Due to this fact a prototype is presented to demonstrate and evaluate a system of procedures that can help to deliver the necessary kind of support. The prototype enables an IT-supported lead-term-orientated system of procedures to automatically code diagnoses based on available medical free-texts. Here, the resulting starting points and procedures follow the suggestions made by Mr. D. Schalck and therefore come from of years of intensive and practically orientated research into questions of the processing of medical free-texts. This special process provides the prototype with a heuristic character. As opposed to a vast number of existing processes the prototype enables a consequent reduction of complexity of the algorithms and master data used through the elimination of a syntactic analysis of the texts used for coding. This eliminates the need to use grammar and therefore also the need for employing complex master data. Hence, data banks are used as the basis of master data which are either easily maintained or maintained anyway within long term projects. The ICD10-Diagnoses-Thesaurus is of great importance at this point particularly due to its extensive and practically orientated number of expressions. As an extension of existing processes the prototype offers the opportunity of coding several medical diagnoses within one sentence. The system also offers the user a means of receiving interactive and qualitative error messages in order to enable coding in a second step when coding in the first step fails due to incomplete or non-consistent information. These error messages could also be used to improve the coding step by step. The evaluation of the resultant prototype concludes that the processes employed have the ability to aid the building of a synergetic bridge between practised medicine, medical administration and medical research if used at the right point and with the right motivation

    Internetgestützte Textanalyse zur Extraktion von Produktentwicklungswissen anhand von semi-strukturierten Dokumenten

    Get PDF
    Mit der Popularisierung und Entwicklung des Internets in den letzten Jahrzehnten tauchen immer mehr elektronische Dokumenten im Internet auf. Zahlreiche Produktspezifikationen sind über das Internet z.B. in Form von Web-Seiten oder PDFs zugänglich. Diese Arbeit hilft den Unternehmen, die Produkte und das Produktentwicklungswissen aus den Webseiten automatisch zu extrahieren. In dieser Arbeit werden die Definition der Product Named Entity, die Konstruktion der Corpus, die Identifizierung von Product Name Entity und schließlich die Extraktion von Produktnamen und Produktentwicklungswissen erforscht. Die Arbeit betrifft die folgenden Aspekte: 1. Nach der Untersuchung von Produktenamen in Web-Seiten definieren wir die verschiedenen Komponenten von Produktnamen. Mit der Definition entwickelten wir eine Rechtlinie für die Markierung des Korpus. Danach erstellen wir einen Product Named Entity Korpus durch die Nutzung der halb-betreuten Lernmethode. 2. Nach den Merkmalen des Produktnames unterteilen wir die Indentifizierung des Produktnames auf zwei Phasen. Die erste Phase erkennt den Brandname, den Serienname und den Typenname eines Produkts. Basierend auf den ersten Ergebnissen wird der Produktname in der zweiten Phase erkannt werden. Für die Erkennung von diesen zwei Phasen können wir verschiedene Methoden verwenden. In der Arbeit werden das Hidden Markov Modell, Maximum Entropy Modell und das Conditional Random Field Modell diskutiert. Nach dem Vergleich der drei Metholden nutzen wir das Conditional Random Field Modell. 3. Nachdem die Produktnamen erfolgreich erkannt werden, werden die Produktnamen, die Produktmerkmale und die Restriktionen zwischen Produkten extrahiert.With the popularization and development of internet in the past few decades, more and more electronic documents appear on the Internet. Numerous product specifications are available via Internet, eg available in the form of web pages or PDFs. This dissertation helps the company to automatically extract the products, product sepecifications and product restriction from the web site. In this paper, We research on the definition of product named entity, the construction of the corpus, and the recognition technologies. This work concerns the following aspects: 1. After studying many of product names in web pages, we define the various compositions of product name entity. With this definition, we developed a rule for the corpus annotation. Then we create a product named entity corpus by using the semi-supervised method. 2. According to the features of the product names we divided the recognition of product names into two phases. The first phase detects the brand name, the series name and the type of a product. Based on the first results the product name will be recognised in the second phase. For the recognition in these two phases, many methods can be used. In this work we discuss hidden Markov model, maximum entropy model and Conditional Random Field model. After comparing these three models we decide to use conditional Random Field Model to do the recognition. 3. After the product names are successfully detected, the products, the product features and the restrictions between products will be extracted
    corecore