188 research outputs found
Quantitative Methoden einer kognitiven Texttypologie
Vorliegende Arbeit verbindet automatische Verfahren der Mustererkennung und der explorativen Feature-Analyse mit textlinguistischen Parametern einer kognitiven Texttypologie, um eine Methodik fuÌr eine kognitiv adĂ€quate, gebrauchsbasierte Genre-Klassifizierung anhand von annotierten Korpusdaten zu entwickeln. Zu den hier relevanten Parametern zĂ€hlen, neben einfachen textstatistischen MaĂen mit kognitiver Interpretation als ElaborationsmaĂe, vor allem Merkmale des referentiellen, relationalen sowie informationsstrukturellen Aufbaus textuell kodierter kognitiver Modelle, wie referentielle Distanz, hĂ€ufige Ereignisschemata, Informationsdichte oder Muster textinterner Diskursstrukturierung. Durch Anwendung von Klassifikations- und Clusteringalgorithmen auf ein zeitlich und dialektal geschichtetes, syntaktisch, semantisch und informationsstrukturell annotiertes Korpus obugrischer VolkserzĂ€hlungen sowie weiterer, primĂ€r muÌndlicher Genres wird die Eignung dieser Methodik einer automatischen Induktion quantitativer Textstrukturtypen fuÌr die Rekonstruktion von Text-Weltmodellen als genrespezifischen, durch Typisierung von Sprachgebrauchssituationen erlernten, schematischen Textstruktur-Modellen der menschlichen Kognition evaluiert.This research combines automatic pattern recognition with parameters of a cognitive text typology to develop a method for genre classification based on annotated corpus data, considering text-linguistic parameters such as information density, elaboration measures or frequent event schemata. Using a corpus of Ob-Ugrian folk tales and other, primarily oral genres, classification and clustering algorithms are applied to evaluate the effectiveness of this method for the induction of quantitative text structure types. This aims to reconstruct text world models as genre-specific, schematic text structure models of human cognition, learned through typification of language use
Tesla - ein virtuelles Labor fĂŒr experimentelle Computer- und Korpuslinguistik
Linguistisch motivierte Komponentensysteme bieten die Möglichkeit, Prozessketten zur
maschinellen Annotation natĂŒrlichsprachlicher Daten zu definieren und auszufĂŒhren.
Bisherige AnsÀtze unterliegen dabei verschiedenen EinschrÀnkungen: So werden i.d.R.
datenorientierte Austauschformate verwendet, die eine Abbildung generierter Daten
auf proprietÀre Metaformate erfordern, wodurch die FlexibilitÀt bei der Implementation
neuer Komponenten reduziert wird. Zudem wird der Reproduzierbarkeit von Ergebnissen
nur eine niedrige PrioritÀt eingerÀumt, was die Nachvollziehbarkeit
und Adaption neuer Verfahren erschwert.
In dieser Arbeit wird mit Tesla (Text Engineering Software Laboratory)
ein alternatives Komponentensystem vorgestellt, das die skizzierten Kritikpunkte ebenso
wie weitere Nachteile und EinschrÀnkungen derartiger Systeme vermeidet.
Anhand eines Verfahrens zur automatischen Extraktion syntaktischer Strukturen,
das auf die distributionelle Analyse nach Harris zurĂŒckgefĂŒhrt werden kann, werden zunĂ€chst die
Anforderungen, denen ein computerlinguistisches Komponentensystem
genĂŒgen muss, konkretisiert und diskutiert.
Im Anschluss daran werden verschiedene Frameworks hinsichtlich dieser Anforderungen evaluiert,
um schlieĂlich Konzept, Design und Implementation von Tesla vorzustellen und dadurch zu verdeutlichen,
dass das beschriebene Strukturierungsverfahren in Form verschiedener experimenteller
Versuchsaufbauten analysiert, erweitert und auf neue UntersuchungsgegenstÀnde angewendet wird
Szenen kritischer RelationalitÀt
Kritische RelationalitĂ€t interveniert in Ordnungen des Denkens, die Kritik als Operation des Trennens und Auseinanderhaltens entworfen und damit die modernen Dualismen von Menschlichem und Nicht-Menschlichem, Subjekten und Objekten, Organischem und Technischem, Natur und Kultur geprĂ€gt haben. Ausgehend von multiplen, verschrĂ€nkten Krisen suchen die BeitrĂ€ge dieses Bandes konkrete Szenen auf, in denen das kritische Potenzial von Verbindungen und Verstrickungen anschaulich wird. Das Ausloten von RelationalitĂ€t wird dabei zu einem analytischen Modus, der fĂŒr die ProduktivitĂ€t von Verbindungen sensibilisiert und zugleich ihre differenziellen Dimensionen anerkennt
Werkzeuge fĂŒr Rechtsdatenbanken
Wenn in Rechtstexten Wissen ĂŒber das Recht enthalten ist, dann mĂŒsste in vielen Texten viel Recht zu finden sein. Die Korpuslinguistik bearbeitet linguistische Fragestellungen anhand groĂer Textmengen, die ausgewĂ€hlt, erworben, aufbereitet (annotiert) und dann durchsucht/bearbeitet werden. Die fĂŒnf Kapitel dieser Arbeit widmen sich jeweils einem wichtigen Thema, zu dem Methoden vorgestellt, in Werkzeugen implementiert und diskutiert werden.
Im ersten Kapitel (Dokumentklassifikation) wird eine Methode vorgestellt, mit der gezielt Rechtstexte aus dem Internet ausgewÀhlt, akquiriert und geordnet in ein Korpus abgelegt werden können. Auch hier sollen die Voraussetzungen so gering wie möglich gehalten werden, damit möglichst breiter Gebrauch von der Methode gemacht werden kann. Die Einteilung des Rechts in einzelne Fachgebiete hat weitreichende Folgen. Sowohl Texte wie Rechtskonzepte erlangen ihre spezielle Bedeutung durch ihr Fachgebiet.
Das zweite Kapitel (Fachgebietsklassifikation) gibt einen Ăberblick ĂŒber die Problematik der Fachgebietseinteilung und stellt zwei automatische Fachgebietserkenner vor, die diese Spezialaufgabe besser lösen als die in Kapitel 1 vorgestellte allgemeine Dokumentklassifikation. Eine groĂe VerĂ€nderung erfĂ€hrt die Rechtsterminologie und -terminografie durch den Ăbergang von der physischen zur elektronischen Schrift. Damit muss nicht mehr eine Darstellungsweise allen Anforderungen gerecht werden, sondern die Darstellung kann dynamisch an die UmstĂ€nde angepasst werden.
Im dritten Kapitel (Dynamische Termdarstellung) wird das Konzept einer dynamischen Termdarstellung vorgestellt und seine technische Umsetzung skizziert.
Das vierte Kapitel Termextraktion durch Beispielterme stellt eine automatische Termextraktionsmethode vor, die mit relativ geringen Voraussetzungen gute Ergebnisse liefert und damit fĂŒr weniger stark verbreitete Sprachen eine Alternative zu kommerziellen Programmen
darstellt. Dieses Instrument kann bei der zentralen Aufgabenstellung
der Terminografie, dem Auffinden und der Auswahl der Termini, eingesetzt werden. Hier wird aber auch gezeigt, wie die Termextraktion zur Indizierung des in den meisten terminografischen Projekten vorhandenen Hintergrundkorpus verwendet werden kann.
Das fĂŒnfte Kapitel (Organisation rechtlichen Wissens) gibt einen
Ăberblick ĂŒber die vielfĂ€ltigen Möglichkeiten der Einteilung und
ReprĂ€sentation von (rechtlichem) Wissen. Eine Methode der WissensreprĂ€sentation mit formaler Sprache, die logische Operationen ermöglicht, ist eine Ontologie. Es wurde eine Ontologie fĂŒr eine Rechtsdatenbank erstellt und alle damit zusammenhĂ€ngenden Aspekte diskutiert.
Im Fazit wird schlieĂlich diskutiert, fĂŒr welche Bereiche der Arbeit mit Rechtsdatenbanken bereits jetzt relativ einfache Werkzeuge zur VerfĂŒgung stehen und wo die Entwicklung von weiteren Werkzeugen ansetzen könnte.
Die Kapitel sind so geschrieben, dass sie auch einzeln gelesen werden können, ohne jedoch allzu starke Ăberschneidungen zuzulassen.La thĂšse de doctorat «Outils pour des bases de donnĂ©es juridiques» traĂźte des mĂ©thodes linguistiques et informatiques pour comprendre, mĂ©moriser et communiquer des connaissances juridiques. Les sujets traitĂ©s sont:
I. La classification de documents
Je discute les classes importantes pour des documents juridiques et je propose une classi-fication automatique qui nâutilise pas seulement le texte du document, mais aussi dâautres critĂšres comme lâadresse du document, lâadresse des liens et le contexte de la recherche de documents.
II. Lâidentification de disciplines en terminographie
Je prĂ©tends que toute rĂ©partition en disciplines et sous-disciplines est par nature relative. Puis je prĂ©sente deux mĂ©thodes pour lâidentification de la discipline dâun texte. La pre-miĂšre utilise les termes et la deuxiĂšme les textes (dĂ©finitions et contextes) prĂ©sents dans la base de donnĂ©es terminographique.
III. La présentation dynamique de termes
Je discute les problĂšmes de la prĂ©sentation de termes traditionnelle pour livres et les avantages dâune prĂ©sentation adaptĂ©e dynamiquement aux besoins concrets de chaque client. Pour prouver la faisabilitĂ© de cette nouvelle approche, jâindique la technologie applicable pour chaque fonction et je prĂ©sente une mise en Ćuvre dans le systĂšme termi-nographique BISTRO (www.eurac.edu/bistro)
IV. Lâextraction de termes
Je discute les caractĂ©ristiques des trois mĂ©thodes pour lâextraction de termes. AprĂšs je montre lâefficacitĂ© de la mĂ©thode basĂ©e sur des exemples lors dâune expĂ©rience. Lâoutil est librement accessible en Internet et peut servir pour lâindexation dâun corpus.
V. Lâorganisation du savoir juridique
Je discute exhaustivement tous les systĂšmes rĂ©pandus dâorganisation du savoir, de mots-clĂ©s jusquâaux ontologies. Ensuite je dĂ©crits le procĂ©dĂ© et les problĂšmes concrets pour organiser une base de donnĂ©es juridiques avec une ontologie
Rezensiv - Online-Rezensionen und Kulturelle Bildung
Online-Rezensionen zu kĂŒnstlerischen Artefakten können Bildungsprozesse anstoĂen. Sowohl in der produktiven Auseinandersetzung mit einem Werk als auch in der Aufbereitung dieser Erfahrung in einem rezensiven Text und fĂŒr ein spezifisches Publikum liegt ein hohes Potenzial hinsichtlich der kulturellen Teilhabe und Ăberwindung von Bildungsbarrieren. Aber welche Prozesse, Inhalte und Kontexte spielen dabei eine Rolle? Dieser Frage widmete sich das interdisziplinĂ€re Forschungsprojekt Rez@Kultur, dessen Ergebnisse hier erstmals umfassend dargestellt werden. ErgĂ€nzt werden die Befunde um Anschlussperspektiven und Kommentare aus Forschung und Praxis
Rezensiv - Online-Rezensionen und Kulturelle Bildung
Online-Rezensionen zu kĂŒnstlerischen Artefakten können Bildungsprozesse anstoĂen. Sowohl in der produktiven Auseinandersetzung mit einem Werk als auch in der Aufbereitung dieser Erfahrung in einem rezensiven Text und fĂŒr ein spezifisches Publikum liegt ein hohes Potenzial hinsichtlich der kulturellen Teilhabe und Ăberwindung von Bildungsbarrieren. Aber welche Prozesse, Inhalte und Kontexte spielen dabei eine Rolle? Dieser Frage widmete sich das interdisziplinĂ€re Forschungsprojekt Rez@Kultur, dessen Ergebnisse hier erstmals umfassend dargestellt werden. ErgĂ€nzt werden die Befunde um Anschlussperspektiven und Kommentare aus Forschung und Praxis
Erweiterung eines Data Warehouse mit Big-Data-Quellen am Beispiel Twitter
Im Zusammenhang mit dem Begriff Big Data können nicht nur immer gröĂere Datenmengen verarbeitet werden, sondern auch neue Arten von Datenquellen genutzt werden. Insbesondere Web 2.0-Inhalte bieten dabei vielfĂ€ltige Potenziale.
So können beispielsweise mit Hilfe einer Sentiment-Analyse Meinungen und Stimmungen zu Produkten und Unternehmen in sozialen Netzwerken beobachtet werden. Diese Infor-mationen sind fĂŒr sich gesehen bereits wertvoll fĂŒr viele Unternehmen. Jedoch ist eine effiziente Analyse und Auswertung der Informationen nur in Kombination mit weiteren Unternehmensdaten möglich, die typischerweise in einem Data Warehouse liegen. Diese Arbeit diskutiert die Unter-schiede, Möglichkeiten und Herausforde-rungen diese Kombination zu realisieren. Veranschaulicht wird dies durch einen Show-Case, der eine Ende-zu-Ende-Umsetzung
am Beispiel der Fernsehsendung Tatort zeigt. Dabei werden Zuschauerkommentare
aus Twitter extrahiert, mit einer Sentiment-Analyse bewertet und schlieĂlich in einem Data Warehouse ausgewertet. Dabei können klassische BI-Kennzahlen, wie beispiels- weise Einschaltquoten, Folgen pro Ermittler etc. den Ergebnissen der Sentiment-Analyse gegenĂŒbergestellt werden
Automatischer Aufbau eines multilingualen Thesaurus durch Extraktion semantischer und lexikalischer Relationen aus der Wikipedia
Die vorliegende Diplomarbeit beschreibt und analysiert Methoden, um aus den DatenbestĂ€nden der Wikipedia in verschiedenen Sprachen einen multilingualen Thesaurus zu erstellen. Dabei sollen insbesondere die Beziehungen zwischen Termen (Wörtern, Wortformen, Phrasen) zu sprachunabhĂ€ngigen Konzepten extrahiert werden sowie die Beziehungen zwischen solchen Konzepten, speziell Beziehungen der Ăber- bzw. Unterordnung (Subsumtion) sowie der semantischen Verwandtheit und Ăhnlichkeit. Zu diesem Zweck werden die Anforderungen sowie die verfĂŒgbaren Rohdaten analysiert, ein Prototyp zur Extraktion der gewĂŒnschten Daten entwickelt und die mit dem Prototyp gewonnenen Daten in Bezug auf die zuvor formulierten Anforderungen evaluiert
- âŠ