13 research outputs found

    Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten

    Get PDF
    Deutsch Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.Multiword groups can be detected and extracted from electronic resources not only manually but also with the help of an algorithmic approach. For this work, articles of the web version of the Reallexikon zur Deutschen Kunstgeschichte, an encyclopaedia for art history, were analysed. For this purpose, the open-source software, Lingo, which is based on linguistic methods and works with pre-defined dictionaries, was used. It is possible to identify and extract multiword groups algorithmically. This is based on the formation of word patterns. These word patterns are constituted of the specifically defined word classes. The different words in the dictionaries are assigned with special word classes, which add information to every entry. Different word classes were found for specialized terminology, proper names or adjectives. In the present study, additionally, function words were included in the formation of word patterns. Therefor, new word classes for these function words were defined. Functions words are articles, conjunctions and prepositions. The aim of this study was to identify and extract specific multiword groups from art historic data with the specific integration of function words in the formation of the word patterns. With self-defined criteria, the found multiword groups were qualitatively assessed. It could be shown, that the use of function words leads to the generation of specific multiword groups. These groups can be used as potential index terms in an information retrieval. Therefore it is beneficial to include function words in the formation of word patterns for the automatic extraction of multiword groups from art historic articles with Lingo

    Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten

    Get PDF
    Deutsch Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.Multiword groups can be detected and extracted from electronic resources not only manually but also with the help of an algorithmic approach. For this work, articles of the web version of the Reallexikon zur Deutschen Kunstgeschichte, an encyclopaedia for art history, were analysed. For this purpose, the open-source software, Lingo, which is based on linguistic methods and works with pre-defined dictionaries, was used. It is possible to identify and extract multiword groups algorithmically. This is based on the formation of word patterns. These word patterns are constituted of the specifically defined word classes. The different words in the dictionaries are assigned with special word classes, which add information to every entry. Different word classes were found for specialized terminology, proper names or adjectives. In the present study, additionally, function words were included in the formation of word patterns. Therefor, new word classes for these function words were defined. Functions words are articles, conjunctions and prepositions. The aim of this study was to identify and extract specific multiword groups from art historic data with the specific integration of function words in the formation of the word patterns. With self-defined criteria, the found multiword groups were qualitatively assessed. It could be shown, that the use of function words leads to the generation of specific multiword groups. These groups can be used as potential index terms in an information retrieval. Therefore it is beneficial to include function words in the formation of word patterns for the automatic extraction of multiword groups from art historic articles with Lingo

    Mathematical multiword phrases Seite 1 Detecting multiword phrases in mathematical text corpora

    Get PDF
    Abstract We present an approach for detecting multiword phrases in mathematical text corpora. The method used is based on characteristic features of mathematical terminology. It makes use of a software tool named Lingo which allows to identify words by means of previously defined dictionaries for specific word classes as adjectives, personal names or nouns. The detection of multiword groups is done algorithmically. Possible advantages of the method for indexing and information retrieval and conclusions for applying dictionary-based methods of automatic indexing instead of stemming procedures are discussed. Problems and goals We start by discussing an example. Given is the text of an abstract for a paper with mathematical content 1 : "We study some rigidity properties for locally symmetrical Finsler manifolds. We obtain the local equivalent characterization for a Finsler manifold to be locally symmetric and prove that any locally symmetrical Finsler manifold with nonzero flag curvature must be Riemannian. We also generalize a rigidity result due to Akbar Zadeh." Looking for methods that will generate index terms automatically and that will have good representation and equally discrimination properties for retrieval purposes, the following question may be of interest: Which of the words are part of a multiword phrase representing a mathematical concept or a proper entity of mathematical terminology? Intellectual analysis can identify the following phrases: • rigidity properties • locally symmetrical Finsler manifold(s) • local equivalent characterization • nonzero flag curvature • rigidity result We have cited the respective longest sequences with a proper meaning. These sequences can contain shorter ones with normally a generic superordinated meaning. Next, we ask the following questions. Is it possible to identify sequences by applying automatic techniques? Is it possible to identify as much as possible sequences of words that can be seen as representations of mathematical concepts? Is it possible to avoid identification of almost all sequences 1 Abstract taken from the database Zentralblatt MATH (http://www.zentralblatt-math.org/zmath/) with permission of the editorial staff. Mathematical multiword phrases Seite 2 that must be seen as senseless or do not have a special mathematical meaning? For example, is it possible to differentiate between the word groups local equivalent characterization and locally symmetrical Finsler manifold by avoiding the first one for its more general character and to generate the second one? Is it further on possible to identify differently written words like characterization or characterisation as conceptually equivalent? Purely algorithmic methods of automatic indexing are normally not suited to build clusters of meaningful multiword sequences. They can identify words as character strings with an additional treatment of suffix variations applying stemming methods. Using for example the well-known Porter stemmer for treating the string locally symmetrical Finsler manifold leads to the following result 2 : This result does not contain the information that the four words are parts of a conceptual unit. With the aid of a positional index it is possible to identify adjacent words but only if they are formulated in a search string by the searcher. Commonly used procedures cannot distinguish between different word classes like nouns, verbs, adjectives and others. Such a differentiation requires dictionaries with an encoding of word classes. For mathematical text additionally important is a sound identification of proper names used, e.g. special mathematical terms and personal names. We use a method of automatic indexing that identifies words and word classes on the basis of previously built dictionaries. These dictionaries additionally contain encodings of the suffix behavior of the word classes. Applying the method with these preconditions will show that the answer to our questions mostly will be positive. Characteristics of mathematical terminology Mathematical text and terminology is characterized by features that are different from other disciplines. We will give a short overview, more detailed discussions can be found in literature (Gödert, 1980; A striking fact for any non-mathematician is the extensive use of words which are quite familiar in everyday language, but with a quite different meaning, for example: • field, group, ring, tree, wood, sheaf, chain, root, convolution, family, hull, order, trace • independent, free, normal, entire, ordinary, compact, open, regular, weak, strong, flabby, etc. This leads to derived terms like normal family or flabby sheaf, combining an adjective with a noun in order to represent a proper concept. Beside this, there are also words which are used exclusively by mathematicians in a mathematical context, like diffeomorphism, homeomorphism, eigenvector, etc. For our identification purposes two observations are important. First, it can be observed that a substantial part of mathematical concepts can be described as compounds of adjectives and nouns, e.g. • distributive algebraic lattice 2 Performed using the Website http://snowball.tartarus.org/demo.php. • divergent quasilinear parabolic equation • fourth order nonlinear differential equation • double-extended quasi-likelihood estimator • dynamic fourth order partial differential equations • doubly periodic three-dimensional travelling water waves • nonlinear parabolic-hyperbolic partial differential equation Almost any technical terminology of a scientific discipline uses compounds of adjectives and nouns for a generic specification of the nouns' meanings. Comparatively rare, this is done by two or more adjectives as is often the case in the mathematical terminology. The total amount of concepts or subjects of investigation that are represented by multiword sequences is not known. It seems to be far greater than in most other scientific disciplines. Secondly, it can be observed that many mathematical concepts are named by their inventors in form of so-called eponyms: Combining eponyms with adjective-noun-sequences can lead to expressions such as: • dixmier approximation theorem • einstein-yang-mills-higgs equations • einstein-maxwell-gauss-bonnet black hole • ergodic hamilton-jacobi-bellman equation • kottler schwarzschild-anti de sitter space-time • generalized mizoguchi-takahashi's fixed point theorem Very often such eponyms are formulated in form of adjectives that are derived from the corresponding names, e.g. • abelian Sometimes we can also find forms of substantiation: It seems desirable to use a technique that can identify the eponym variant galoisian by some form of derivation from a dictionary entry galois instead of lexicalizing any of these variants. We will see later how this can be done technically. Mathematical multiword phrases Seite 3 Mathematical multiword phrases Seite Two cases of homonymy can be observed. Some words have a different meaning in a mathematical context than in everyday situations. Once more the aforementioned practice of different encodings in dictionaries can be used to distinguish the different meanings. Within the context of mathematical texts, this case does not challenge. As we will see later in more detail, one can specify a priority for using different dictionaries. As a result, a word can be identified at first as part of a specialized terminology and only in the case of non-identification as part of everyday language. The second one is an inner-mathematical ambiguity, formed by concepts which occur in different mathematical disciplines, e.g. k-theory (general topology) (algebraic topology) (algebraic geometry) (commutative rings and algebras) It is not possible to offer a trivial solution for disambiguating the different meanings which is based only on the words given. Mathematical results and text are produced by an international community. The names of their authors are partly written in character sets other than latin. Even if the text source to be analyzed is written in one language -English in the case of our abstracts from the Zentralblatt MATH -there may be different spellings of names as a result of different methods for transcribing them from their original language. It should therefore be desirable to identify the variants as synonyms. Similarly, spelling variants of each word can be part of a synonym dictionary (we have indicated this already by our aforementioned example characterization or characterisation). It should be kept in mind that is not always trivial to decide whether a spelling variant of a name stands for the same or for another person. To achieve homogeneous results, standardizing of personal names should therefore primarily be seen as a problem of the data integrity of the text source and not as much as part of an a posteriori analyzing and indexing procedure

    Analyse der Ăśbertragbarkeit allgemeiner Rankingfaktoren von Web-Suchmaschinen auf Discovery-Systeme

    Get PDF
    Ziel dieser Bachelorarbeit war es, die Übertragbarkeit der allgemeinen Rankingfaktoren, wie sie von Web-Suchmaschinen verwendet werden, auf Discovery-Systeme zu analysieren. Dadurch könnte das bisher hauptsächlich auf dem textuellen Abgleich zwischen Suchanfrage und Dokumenten basierende bibliothekarische Ranking verbessert werden. Hierfür wurden Faktoren aus den Gruppen Popularität, Aktualität, Lokalität, Technische Faktoren, sowie dem personalisierten Ranking diskutiert. Die entsprechenden Rankingfaktoren wurden nach ihrer Vorkommenshäufigkeit in der analysierten Literatur und der daraus abgeleiteten Wichtigkeit, ausgewählt. Von den 23 untersuchten Rankingfaktoren sind 14 (61 %) direkt vom Ranking der Web-Suchmaschinen auf das Ranking der Discovery-Systeme übertragbar. Zu diesen zählen unter anderem das Klickverhalten, das Erstellungsdatum, der Nutzerstandort, sowie die Sprache. Sechs (26%) der untersuchten Faktoren sind dagegen nicht übertragbar (z.B. Aktualisierungsfrequenz und Ladegeschwindigkeit). Die Linktopologie, die Nutzungshäufigkeit, sowie die Aktualisierungsfrequenz sind mit entsprechenden Modifikationen übertragbar.The purpose of this bachelor thesis was to analyze the transferability of the general ranking factors, as used by web search engines, to Discovery-Systems. As a result of this investigation, the library ranking, which used to be based primarily on textual matching between search query and documents, could be improved. For this purpose ranking factors from the groups popularity, freshness, locality, technical factors as well as the personalized ranking factors were discussed. The corresponding ranking factors were selected according to their frequency of occurrence in the literature analyzed and the importance derived therefrom. 23 ranking factors were examined, 14 (61%) are directly transferable from the web search engines to the discovery systems. These include for example click popularity, publication date, user location, and language. However, six (26%) of the investigated factors are not transferable (e.g., update frequency and page loading rate). The Link-based ranking, the frequency of usage, as well as the update frequency are transferable with appropriate modifications

    ErschlieĂźung und bildliche Dokumentation von Wasserzeichen in Online-Datenbanken

    Get PDF
    Die Untersuchung von Wasserzeichen zählt in vielen quellenorientierten Wissenschaften wie der Musikwissenschaft oder der Mediävistik zu den Standardmethoden. In den 1990er Jahren entstanden die ersten Online-Wasserzeichendatenbanken. Die Wissenschaft erhielt dadurch Zugriff auf umfangreiches Vergleichs-material zur Datierung, Zuschreibung oder Echtheitsbestimmung. Die Erschließung und bildliche Dokumentation von Wasserzeichen stellt allerdings eine Herausforderung dar, da es sich um komplexe nicht-textuelle Objekte handelt. Die Arbeit analysiert und bewertet aktuelle Wasserzeichendatenbanken und diskutiert Konzepte zur Optimierung im Bereich der Erschließung und des Information Retrieval. Zunächst wird der spezielle Gegenstandsbereich der Wasserzeichen betrachtet. Darauf aufbauend werden inhaltliche und informationswissenschaftliche Anforderungen an Indexierungssprachen im Bereich der Wasserzeichenerschließung formuliert. Im Zentrum der Arbeit steht die Analyse und Evaluation der Datenbank „Wasserzeicheninformationssystem Deutschland (WZIS)“. Als Strategie zur Optimierung wird der Einsatz facettierter Indexierungssprachen erörtert

    Grundlagen der Informationswissenschaft

    Get PDF

    Multimodale Kommunikation im Social Web

    Get PDF
    Multimodalität ist ein typisches Merkmal der Kommunikation im Social Web. Der Fokus dieses Bandes liegt auf der Kommunikation in Foto-Communitys, insbesondere auf den beiden kommunikativen Praktiken des Social Taggings und des Verfassens von Notizen innerhalb von Bildern. Bei den Tags stehen semantische Text-Bild-Relationen im Vordergrund: Tags dienen der Wissensrepräsentation, eine adäquate Versprachlichung der Bilder ist folglich unabdingbar. Notizen-Bild-Relationen sind aus pragmatischer Perspektive von Interesse: Die Informationen eines Kommunikats werden komplementär auf Text und Bild verteilt, was sich in verschiedenen sprachlichen Phänomenen niederschlägt. Ein diachroner Vergleich mit der Postkartenkommunikation sowie ein Exkurs zur Kommunikation mit Emojis runden das Buch ab

    Polysemie kausativer Verben : Entwicklung automatischer Extraktionsmethoden zur Klassifizierung des französischen Verbwortschatzes

    Get PDF
    Die Dissertation beinhaltet die semantische Unterspezifizierung französischer lexikalischer (tuer qn) und morphologischer (allonger qc) Kausativa. Anhand semantischer und syntaktischer Kriterien sowie ontologischer Prinzipien wurde eine Taxonomie kausativer Verben erstellt. Klassenbildendes Merkmal sind die möglichen Nachzustände, die aus kausierten Zustandsveränderungen resultieren können. „Les verbes français“ (LVF) (Dubois/Dubois-Charlier: 1997) ist eine französische Verbdatenbank, die 12310 Verben bzw. insgesamt 25609 Verblesarten umfasst und als Tabellenkalkulationsformat vorliegt. Den theoretisch definierten Kausationsklassen wurden im Praxisteil Lesarten der LVF-Verbdatenbank automatisch zugeordnet, um die bereits bestehenden semantisch-syntaktischen und morpho-syntaktischen Informationen in Bezug auf Kausativität zu ergänzen. In der Dissertation wurden mithilfe der Programmiersprache Python prototypische Anfragen gestartet und automatische Extraktionsmethoden entwickelt, um kausative Verblesarten systematisch zu extrahieren und den jeweiligen Kausationsklassen zuzuordnen. Die Verblesarten wurden vorwiegend anhand der semantischen LVF-Klassen extrahiert. Mithilfe weiterer syntaktischer oder konzeptueller Kriterien konnte die Precision (oder Relevanzrate) für jedes kausative Konzept auf 1 erhöht werden, ohne den Recall zu beeinträchtigen. Das gesamte Python-Skript zur Extraktion aller Kausationsklassen ist in Anhang II verfügbar.This thesis deals with the semantic underspecification of French lexical (tuer qn) and morphological causatives (allonger qc). A taxonomy of causative verb classes according to different target states was defined by means of semantic and syntactic properties as well as ontological principles. “Les verbes français” (LVF) (Dubois/Dubois-Charlier: 1997) is a lexical resource comprising 12310 French verbs and accordingly 25609 verbal readings with a detailed syntactico-semantic and morpho-syntactic description of all lexical units. Based on the theoretically defined causative concepts, corresponding verbal readings were automatically extracted from the electronic verb database LVF. The automatic classification of causative verbs allows to enrich the existing linguistic information in LVF in terms of causativity. In this thesis, an incremental extraction method was developed by means of the programming language Python. In most cases, verbal readings are extracted by means of the LVF semantic classes. Further syntactic and conceptual criteria are added in order to improve the precision (or relevance ratio) for each causative concept without reducing the recall rate. The complete Python script for the extraction of all causative verb classes defined in this thesis is available in appendix II

    Die Zukunft der Vergangenheit in der Gegenwart

    Get PDF
    The volume contains 18 contributions to an international conference of archivists and historians dealing with the current situation of archives and archival science generally and specifically with the impact of digitization on archival core tasks and on the societal roles of archives.Der Band enthält 18 Beiträge einer internationalen Tagung von ArchivarInnen und HistorikerInnen, die sich mit der aktuellen Situation von Archivwesen und Archivwissenschaft allgemein und speziell mit den Auswirkungen der Digitalisierung auf die archivischen Kerntätigkeiten und die gesellschaftlichen Rollen der Archive befassen

    Anaphora Resolution and Text Retrieval

    Get PDF
    Empirical approaches based on qualitative or quantitative methods of corpus linguistics have become a central paradigm within linguistics. The series takes account of this fact and provides a platform for approaches within synchronous linguistics as well as interdisciplinary works with a linguistic focus which devise new ways of working empirically and develop new data-based methods and theoretical models for empirical linguistic analyses
    corecore