12 research outputs found

    Použití lemmatizačních a summarizačních metod v modulu identifikace tématu pro filtraci rozsáhlých dat pro jazykové modelování

    No full text
    Příspěvek prezentuje pokusy s modulem identifikace tématu, který je součástí komplexního systému pro získávání a ukládání velkých objemů textových dat. Modul identifikace tématu zpracovává získaná data a přiřadí jim téma z definované hierarchie témat . Hierarchie témat je poměrně rozsáhlá - obsahuje asi 450 témat a kategorií témat. Může se snadno stát, že pro některé úzce zaměřené téma není dostatek dat pro trénování identifikace tématu. Bylo ukázáno, že lemmatizace zlepšuje výsledky při práci s řídkými daty v oblasti vyhledávání informací. Proto je v článku studován vliv lemmatizace na výsledky identifikace tématu. Na druhé straně, protože se systém používá pro zpracování velkého množství dat, byla implementována metoda sumarizace a vliv použití pouze shrnutí článku na přesnost identifikace tématu je studován.The paper presents experiments with the topic identification module which is a part of a complex system for acquisition and storing large volumes of text data. The topic identification module processes each acquired data item and assigns it topics from a defined topic hierarchy. The topic hierarchy is quite extensive – it contains about 450 topics and topic categories. It can easily happen that for some narrowly focused topic there is not enough data for the topic identification training. Lemmatization is shown to improve the results when dealing with sparse data in the area of information retrieval, therefore the effects of lemmatization on topic identification results is studied in the paper. On the other hand, since the system is used for processing large amounts of data, a summarization method was implemented and the effect of using only the summary of an article on the topic identification accuracy is studied

    Spoken document retrieval and the use of blind relevance feedback

    Get PDF
    Díky rychlému rozvoji počítačové techniky je stále více informací ukládáno ve formě multimediálních databází, ve velké míře dostupných prostřednictvím internetu. Prohlížení takovýchto rozsáhlých databází manuálně není možné, proto v současné době dochází k rychlému rozvoji vyhledávání informací v řeči jako určité nadstavby již běžně používaného vyhledávání informací v textu. Pro úspěšné vyhledávání v řeči je nutné propojení systému pro automatické rozpoznávání řeči a systému pro vyhledávání informací. V procesu vyhledávání informací často dochází k efektu označovanému jako slovníkový problém, tedy že dokumenty a dotazy nejsou psány stejnou formou, nepoužívají stejná slova a dochází tak ke zhoršení výsledků vyhledávání. Tento problém může být ještě umocněn v případě vyhledávání informací v řeči, kdy automatické rozpoznávání řeči může vnášet další rozdíly v použitém slovníku, případně i chyby. Metody rozšíření dotazu, zvláště pak použití zpětné vazby, se ukázaly jako jedny z nejpřirozenějších a nejúspěšnějších postupů, jak tento problém řešit pomocí vytvoření nového, úspěšnějšího dotazu. Tato práce prezentuje způsoby jak lze vyhledávat informace v řeči, používané metody a postupy, a dále se věnuje zapojení zpětné vazby, zejména pak slepé zpětné vazby, do procesu vyhledávání informací.NeobhájenoWith the rapid development of the computer technology the ever increasing amount of information is stored in the form of multimedia databases, widely available through the Internet. Browsing such a large database manually is not possible, therefore a rapid development in the area of spoken document retrieval as a certain extension of already commonly used text information retrieval occurs recently. To search successfully in speech the connection between the automatic speech recognition system and the information retrieval system is needed. In the process of information retrieval an effect often appears referred to as the vocabulary problem, namely that the documents and queries are not written in the same form, they do not use the same words, and this leads to a deterioration in the search results. This problem can be magnified in the case of speech information retrieval, in which automatic speech recognition can bring other differences in vocabulary usage, or even errors. Query expansion methods, especially the use of relevance feedback has proven to be one of the most natural and successful techniques how to solve this problem by creating a new, more useful query. This thesis presents the possibilities of retrieving information from the speech data, commonly used methods and procedures, and addresses the incorporation of the relevance feedback, especially the blind relevance feedback, into the information retrieval process

    Porovnání různých lematizačních přístupů prostřednictvím výkonnosti při vyhledávání informací

    No full text
    Tento článek prezentuje kvantitativní porovnání dvou různých přístupů k lematizaci českého textu. První přístup je založen na použití ručně vytvořeného slovníku lemmat a množiny derivačních pravidel a druhý pak na automatickém odvození slovníku a pravidel z trénovacích dat. Porovnání je provedeno vyhodnocením míry střední zobecněné průměrné přesnosti (angl. mean Generalized Average Precision - mGAP) lematizovaných dokumentů a hledaných dotazů v sérii experimentů zaměřených na vyhledávání informací. Taková to metoda je vhodná pro efektivní a spolehlivé porovnání výkonnosti lematizace, neboť jak bylo prokázáno, správná lematizace je rozhodujícím faktorem při efektivním vyhledávání informací ve vysoce inflektivních jazycích. Navrhované nepřímé porovnání lematizátorů navíc obchází nutnost existence obtížně získatelných ručně lematizovaných testovacích dat a také řeší problém nekompatibilních množin lemmat napříč různými systémy.This paper presents a quantitative performance analysis of two different approaches to the lemmatization of the Czech text data. The first one is based on manually prepared dictionary of lemmas and set of derivation rules while the second one is based on automatic inference of the dictionary and the rules from training data. The comparison is done by evaluating the mean Generalized Average Precision (mGAP) measure of the lemmatized documents and search queries in the set of information retrieval (IR) experiments. Such method is suitable for efficient and rather reliable comparison of the lemmatization performance since a correct lemmatization has proven to be crucial for IR effectiveness in highly inflected languages. Moreover, the proposed indirect comparison of the lemmatizers circumvents the need for manually lemmatized test data which are hard to obtain and also face the problem of incompatible sets of lemmas across different systems

    Experimenty s automatickým vytvářením dotazů v rozšířeném Booleovském modelu

    No full text
    This paper concentrates on experiments with automatic creation of queries from natural language topics, suitable for use in the Extended Boolean information retrieval system. Because of the lack and/or inadequacy of the available methods, we propose a new method, based on pairing terms into a binary tree structure. The results of this method are compared with the results achieved by our implementation of the known method proposed by Salton and also with the results obtained with manually created queries. All experiments were performed on the same collection that was used in the CLEF 2007 campaign

    Porovnání metod pro normalizaci skóre aplikovaných na úlohu multi-label klasifikace

    No full text
    Our paper deals with the multi-label text classification of the newspaper articles, where the classifier must decide if a document does or does not belong to each topic from the predefined topic set. A generative classifier is used to tackle this task and the problem with finding a threshold for the positive classification is mainly addressed. This threshold can vary for each document depending on the content of the document (words used, length of the document, etc.). An extensive comparison of the score normalization methods, primary proposed in the speaker identification/verification task, for robustly finding the threshold defining the boundary between the "correct'' and the "incorrect'' topics of a document is presented. Score normalization methods (based on World Model and Unconstrained Cohort Normalization) applied to the topic identification task has shown an improvement of results in our former experiments, therefore in this paper an in-depth experiments with more score normalization techniques applied to the multi-label classification were performed. Thorough analysis of the effects of the various parameters setting is presented
    corecore