20 research outputs found

    Sprachliche VariabilitÀt des Deutschen und ihre Erfassung mit Methoden der automatischen Spracherkennung

    Get PDF
    Die Datenbank wird auf den Ergebnissen der Analyse einschlĂ€giger umfangreicher Korpora des gesprochenen Deutsch basieren. Um jedoch große Korpora analysieren zu können, ist es notwendig, automatische Analyseverfahren der Variation zu entwickeln. Mit traditionellen manuellen Methoden kann der Aufbau einer korpusbasierten Datenbank kaum verwirklicht werden. Dem eigentlichen Variationsprojekt wurde daher eine kleine Pilotstudie vorgeschaltet, die die Möglichkeiten der automatischen Analyse prĂŒfen sollte. Dabei wurde der Frage nachgegangen, ob es möglich ist, regionale Varianten des Deutschen mit Verfahren der automatischen Spracherkennung zu untersuchen, d.h., ob es möglich ist, eine verlĂ€ssliche Transkription der regionalen Varianten automatisch herzustellen. Diese Pilotstudie zur automatischen Transkription stĂŒtzte sich auf das im IDS bereits vorhandene System SPRAT (Speech Recognition and Alignment Tool), das zum Alignieren (Text-Ton-Synchronisation) verwendet wird. Im Rahmen der Pilotstudie wurde dieses System modifiziert und in einer Reihe von Tests dessen automatische Transkription evaluiert (vgl. Abschnitt 3). Das Ziel des vorliegenden Beitrags ist es, die Ergebnisse dieser Pilotstudie vorzustellen. ZunĂ€chst aber soll ein kurzer Exkurs verdeutlichen, um welches System es sich beim IDS-Aligner SPRAT handelt

    Books received

    Get PDF

    Probleme formaler Modelle in den historischen Wissenschaften

    Full text link
    Das "Denken in Modellen", das viele Historiker befremdet und zur Ablehnung reizt, wird in dem Beitrag in eine breitere forschungslogische Perspektive gesetzt. Der Autor erlĂ€utert die verschiedenen Facetten und Anwendungsmöglichkeiten unterschiedlicher Typen formaler Modelle, weist auf WidersprĂŒche und Probleme hin, argumentiert aber auch entschieden fĂŒr den Nutzen der Modelltechnik in den verstehenden Geisteswissenschaften. (pmb

    On the algorithmic complexity of regular languages

    Get PDF
    Im Gegensatz zur Minimierung von DFAs ist die exakte Minimierung von NFAs oder regulĂ€ren AusdrĂŒcken nachweislich schwierig, im allgemeinen Fall PSpace-schwer. Wir zeigen, dass selbst schwache Approximationen zur Minimierung von NFAs und regulĂ€ren AusdrĂŒcken wahrscheinlich nicht effizient möglich sind. Falls als Eingabe ein NFA oder regulĂ€rer Ausdruck der GrĂ¶ĂŸe n gegeben ist, löst ein Approximationsalgorithmus fĂŒr das Minimierungsproblem mit Approximationsfaktor o(n) bereits ein PSpace-vollstĂ€ndiges Problem. Wenn wir uns auf NFAs oder regulĂ€re AusdrĂŒcke ĂŒber einem unĂ€ren - also einelementigen - Alphabet beschrĂ€nken, so ist das Problem der exakten Minimierung NP-vollstĂ€ndig. Wir weisen nach, dass effiziente Approximationen fĂŒr das unĂ€re Minimierungsproblem mit Approximationsfaktor n^(1-delta) fĂŒr jedes delta>0 nicht möglich sind, sofern P != NP gilt. Liegt die Eingabe als DFA mit n ZustĂ€nden vor, kann sie exponentiell grĂ¶ĂŸer sein als ein Ă€quivalenter NFA oder regulĂ€rer Ausdruck. Dennoch bleibt das Minimierungsproblem PSpace-schwer, wenn die Anzahl der ÜbergĂ€nge oder ZustĂ€nde in einem Ă€quivalenten NFA oder die LĂ€nge eines Ă€quivalenten regulĂ€ren Ausdrucks zu bestimmen ist. Wir zeigen, dass auch hierfĂŒr keine guten Approximationen zu erwarten sind. Unter der Annahme der Existenz von Pseudozufallsfunktionen, die wiederum auf der Annahme basiert, dass Faktorisierung schwierig ist, zeigen wir, dass kein effizienter Algorithmus einen Approximationsfaktor n/(poly(log n)) fĂŒr die Zahl der ÜbergĂ€nge im NFA oder die LĂ€nge des regulĂ€ren Ausdrucks garantieren kann. FĂŒr die Zahl der ZustĂ€nde im NFA weisen wir nach, dass effiziente Approximationen mit Approximationsfaktor (n^(1/2))/(poly(log n)) ausgeschlossen sind. Wir betrachten dann Lernprobleme fĂŒr regulĂ€re Sprachen als Konzeptklasse. Mit den entwickelten Methoden, die auf der Annahme der Existenz von Pseudozufallsfunktionen beruhen, zeigen wir auch, dass es fĂŒr das Problem des minimalen konsistenten DFAs keine effizienten Approximationen mit Approximationsfaktor n/(poly(log n)) gibt. FĂŒr den unĂ€ren Fall hingegen weisen wir nach, dass es einen effizienten Algorithmus gibt, der einen minimalen konsistenten DFA konstruiert und erhalten somit auch einen effizienten PAC-Algorithmus fĂŒr unĂ€re regulĂ€re Sprachen, die von DFAs mit n ZustĂ€nden akzeptiert werden. FĂŒr unĂ€re Beispielmengen weisen wir außerdem nach, dass es keine effizienten Algorithmen gibt, die minimale konsistente NFAs konstruieren, falls NP-vollstĂ€ndige Probleme nicht in Zeit (n^(O(log n)) gelöst werden können. Andererseits geben wir einen effizienten Algorithmus an, der zu unĂ€ren Beispielmengen einen konsistenten NFA mit höchstens O(opt^2) ZustĂ€nden konstruiert, wenn ein minimaler konsistenter NFA opt ZustĂ€nde hat. Abschließend betrachten wir das Lernen von DFAs durch Äquivalenzfragen. FĂŒr den nicht-unĂ€ren Fall ist bekannt, dass exponentiell viele Fragen fĂŒr DFAs mit n ZustĂ€nden benötigt werden. FĂŒr unĂ€re zyklische DFAs mit primer ZykluslĂ€nge und höchstens n ZustĂ€nden zeigen wir, dass Theta((n^2)/(ln n)) Äquivalenzfragen hinreichend und notwendig sind. Erlauben wir grĂ¶ĂŸere zyklische DFAs als Hypothesen, kommen wir mit weniger Fragen aus: Um zyklische DFAs mit höchstens n ZustĂ€nden durch Äquivalenzfragen mit zyklischen DFAs mit höchstens n^d ZustĂ€nden fĂŒr d <= n als Hypothesen zu lernen, sind O((n^2)/d) Fragen hinreichend und Omega((n^2 ln d)/(d (ln n)^2)) Fragen nötig.We consider the approximate minimization of NFAs and regular expressions. It is known that exact minimization is PSpace hard in the general case. We show that even weak approximations solve hard problems and thus efficient approximations with reasonable approximation factors probably don't exist. We also consider the problem of learning regular languages and show positive and negative results for the problem of learning of learning a unary regular language in some well known frameworks of machine learning

    Komponentenbasierte Überwachung hybrider Systeme durch den Einsatz formaler Methoden

    Full text link
    Die vorliegende Arbeit beschĂ€ftigt sich mit der Entwicklung eines neuen Verfahrens zum nahtlosen Komponentenentwurf und zur SystemĂŒberwachung durch ein einheitliches Modell, das die Anforderungen der Entwicklung von komplexen dynamischen Systemen erfĂŒllt und somit einen Beitrag zum Entwurf verlĂ€sslicher Systeme leistet. HierfĂŒr wird die komponentenbasierte Design-Methodologie KobrA eingesetzt, weil diese eine schrittweise Komponentenzerlegung auf verschiedenen Abstraktionsebenen und Sichten durchfĂŒhrt. Sie beinhaltet sowohl „Top-down“-Elemente als auch „Bottom-up“-AnsĂ€tze, die fĂŒr eine effiziente prototypische Systemrealisierung geeignet sind. Mit der Entwicklung eines formalen echtzeitfĂ€higen Überwachungs- und Fehlererkennungsmechanismus wird die KobrA-Methode durch eine formale Modellierungssprache erweitert, welche sowohl fĂŒr die Softwareentwickler als auch fĂŒr die Ingenieure verstĂ€ndlich sein soll. Aus diesem Grund sollte diese Sprache eine eindeutige und streng definierte Semantik besitzen. Die einheitliche Beschreibung der Systemkomponenten sowie der Überwachungskomponenten durch denselben formalen Sprachmittel ermöglicht die systematische Einbettung der Überwachung ĂŒber den gesamten Entwicklungsprozess und dessen AusfĂŒhrung wĂ€hrend des Betriebs. Petri-Netze gehören zur Graphentheorie und zĂ€hlen seit mehreren Jahren zu den mĂ€chtigsten Spezifikationswerkzeugen in verschiedenen Gebieten. Sie erlauben die Beschreibung des Komponentenverhaltens durch ein Netzwerk, bestehend aus Knoten und aus Bedingungen fĂŒr den Datenfluss zwischen diesen Knoten. Wesentliche Vorteile von Petri-Netzen sind zum einen ihre formale mathematische Formulierung, die auf einem soliden theoretischen Fundament beruht, sowie zum anderen die explizite Abbildung des Prozesszustandes ĂŒber ein Markierungskonzept. Petri-Netze ermöglichen zusĂ€tzlich die Darstellung sequentieller, sich gegenseitig ausschließender sowie paralleler AktivitĂ€ten, die Modellierung und Visualisierung von Systemverhalten sowie die NebenlĂ€ufigkeit und die Synchronisation von kooperativen Prozessen. In dieser Arbeit erfolgt die Verhaltensbeschreibung der Überwachungskomponenten durch eine neue Klasse von Petri-Netzen, so genannte „Modifizierte Partikel Petri-Netze“ (engl., Modified Particle Petri Nets „MPPN“). Diese Netzklasse beinhaltet hybride Petri-Netze fĂŒr die Modellierung des hybriden Systemverhaltens und einen Partikelfilter als probabilistische Erweiterung, um die Überwachung als Tracking-Problem aufzufassen. Petri-Netze bieten eine vollstĂ€ndige und konsistente Beschreibung der Prozesse, die graphische Anschauung sowie Simulation und Animation als Testmöglichkeit bereits wĂ€hrend der Entwurfsphase. Die Kombination aus KobrA-Beschreibungsformalismus und Petri-Netzen erlaubt eine anschauliche, modular und hierarchisch strukturierte Modellierung, direkt in einer formalen Sprache. Durch unterstĂŒtzende Werkzeuge, die im Rahmen dieser Arbeit entwickelt sind, kann die Realisierung der Überwachungskomponente direkt aus der Spezifikation generiert werden. HierfĂŒr wird das Petri-Netzmodell in ein textuelles kompaktes XML-Austauschformat (engl., „Extensible Markup Language“) transformiert, welche sich an dem PNML-Standard (engl., „Petri Net Markup Language“) orientiert. Diese generische Vorlage enthĂ€lt das Komponentenverhalten und die fĂŒr den Überwachungsprozess notwendigen Parameter. Der besondere Aspekt fĂŒr den Einsatz derselben formalen Methode, nĂ€mlich die Petri-Netze, sowohl fĂŒr die Spezifikation als auch fĂŒr die Realisierung, beruht auf zwei Zielen. Das primĂ€re Ziel ist, ein einheitliches verstĂ€ndliches Ausdrucksmittel fĂŒr die Entwurfsphase eines Systems zu stellen, mit dem alle Aspekte des ausgewĂ€hlten Abstraktionsniveaus unmissverstĂ€ndlich dargestellt werden können. Denn Spezifikationsdokumente in natĂŒrlichen Sprachen sind anfĂ€llig fĂŒr MissverstĂ€ndnisse, wĂ€hrend formale Spezifikationen auf mathematischen Beschreibungen und eindeutiger Semantik und Syntaxen basieren. Das sekundĂ€re Ziel ist eine formale ĂŒberprĂŒfbare Spezifikation (mittels eines Simulationswerkzeuges) als solide Basis fĂŒr die Realisierungsphase zu bilden. Denn eine automatisch verifikationsbasierte Systementwicklung stellt eine Möglichkeit zur Erhöhung der SystemverlĂ€sslichkeit dar. Die andere Möglichkeit basiert auf der Robustheit des Überwachungsverfahrens wĂ€hrend der Betriebsphase
    corecore