14 research outputs found

    Mining Term Association Rules for Global Query Expansion: A Case Study with Topic 202 from TREC4

    Get PDF
    The sudden growth of the World Wide Web and its unprecedented popularity as a de facto global digital library exemplified both the strengths and weaknesses of the Information Retrieval techniques used by popular search engines. Most queries are short and incomplete attempts to describe or characterize the possible documents relevant to the query. It seems then natural to try and expand the queries with additional terms, which are semantically and/or statistically associated with the original query terms. In this paper we are looking at the mining of associations between terms for the exploration of the terminology of a corpus as well as for the automatic expansion of queries. The technique we use for the discovery of the associations is association rules mining [Agrawal 96]. The technique we propose is more flexible than previous techniques based on term co-occurrence since it takes into account not only the co-occurrence frequency but also the confidence and direction of the association rules. Our preliminary experiment results show we can get benefit from this novel technique

    Using webcrawling of publicly available websites to assess E-commerce relationships

    Get PDF
    We investigate e-commerce success factors concerning their impact on the success of commerce transactions between businesses companies. In scientific literature, many e-commerce success factors are introduced. Most of them are focused on companies' website quality. They are evaluated concerning companies' success in the business-to- consumer (B2C) environment where consumers choose their preferred e-commerce websites based on these success factors e.g. website content quality, website interaction, and website customization. In contrast to previous work, this research focuses on the usage of existing e-commerce success factors for predicting successfulness of business-to-business (B2B) ecommerce. The introduced methodology is based on the identification of semantic textual patterns representing success factors from the websites of B2B companies. The successfulness of the identified success factors in B2B ecommerce is evaluated by regression modeling. As a result, it is shown that some B2C e-commerce success factors also enable the predicting of B2B e-commerce success while others do not. This contributes to the existing literature concerning ecommerce success factors. Further, these findings are valuable for B2B e-commerce websites creation

    Математическая модель подсистемы поиска и ранжирования документов в информационно-поисковых системах

    Get PDF
    В статье проведен анализ существующих моделей поиска и ранжирования документов в информационно-поисковых системах (ИПС), указаны основные параметры эффективности ИПС, поставлена задача построения математической модели поиска и сортировки документов с учетом взаимозависимости термов в текстах, рассмотрена возможность применения аппарата корреляции для определения меры схожести поискового запроса и документа и уменьшения вычислительных затрат в ИПС, а также использования показателя корреляции как единого обобщенного показателя ИПС для установления степени схожести поискового запроса и документов, проведения сортировки по релевантности, исключения документов-дубликатов из результатов поиск

    Thematic Identification of 'Little Science': Trends in Portuguese IS&LS Literature by Controlled Vocabulary and Co-Word Analysis

    Full text link
    This study presents an overview of IS&LS thematic trends in Portugal between 2001 and 2012. The results were obtained by means of an analysis, using expeditious qualitative and quantitative techniques, of the bibliographic records of proceedings papers identified during this period. These records were processed using two techniques: a manual subject classification and an automated co-word analysis of the Author-Assigned Keywords. From this we designed cluster and co-occurrence maps, using the VOSviewer and the Pajek software packages. The results indicated an accentuated dynamism in the thematic evolution of this documental corpus, apart from revealing a significant difference among the themes transmitted in nationally and internationally visible production.Comment: In Proceedings of the 5th International Conference on Qualitative and Quantitative Methods in Libraries, 201

    Implementasi Metode Dyanmic Window Based pada Information Retrieval Ssytems

    Get PDF
    ABSTRAKSI: Pada saat ini dimana jumlah dokumen yang tersedia sangat besar, pencarian secara manual dapat dilakukan dengan membaca setiap dokumen pada koleksi dokumen untuk mendapatkan dokumen yang tepat dan sesuai kebutuhan. Namun, pencarian seperti itu membutuhkan waktu yang lama jika jumlah dokumen sangat banyak. Dan Information Retrieval Systems dapat memecahkan masalah tersebut. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents yang ada melalui pencarian query yang diinputkan user. Sistem information retrieval yang baik adalah sistem information retrieval yang mampu mengambil semua dokumen relevan dan kemudian mengurutkan dokumen relevan tersebut pada urutan teratas. Agar diperoleh sistem dengan dokumen relevan berada pada urutan teratas dibutuhkan suatu metode perangkingan dengan menggunakan metode penghitungan similiarity score yang efektif dalam menentukan nilai similiarity score suatu dokumen. Dalam tugas akhir ini akan digunakan metode Dynamic Window Based pada penghitungan nilai similiarity score nya . Analisa yang dilakukan pada tugas akhir ini adalah membandingkan performansi dari metode Dynamic Window Based dan metode Probabilistik. Adapun untuk keakuratan sistem dalam mengambil dokumen yang relevan dapat dilihat dari nilai Precision,Recall sedangkan untuk kemampuan sistem dalam mengambil dokumen yang relevan dapat dilihat dari nilai IAP yang didapatkan. Menurut pengujian yang dilakukan performansi sistem dengan menggunakan metode Dynamic Window Based lebih baik dibandingkan dengan Probabilistik asalkan di dalam dokumen tersebut terdapat term conjoint yang akan membuat nilai similiarity score maksimal. Perubahan lebar window pada metode Dynamic Window Based juga akan berpengaruh terhadap hasil performansi sistemnya.Kata Kunci : Information Retrieval System, Dynamic Window Based, similiarity score, Probabilistik,Precision, Recall, IAP.ABSTRACT: Nowadays where amount of document is huge, manual searching could be possible to do by read ing on by one document in document collection due to get document which is we searching for. But, if we do that way it needs a lot of time if document itself is huge. Information retrieval system can assist to solve this problem.Process in information retrieval can be figure as a process to get relevant document from document collection by seraching the query which is input to systems by user. Good information retrieval systems is the systems that can get all relevant document and the result was ranked in top chart. To get good systems all we need is effective rank method when calculating similiarity score a document. In this final project will be using Dynamic Window Based method in calculating similiarity score.The analysis conducted in this thesis is to compare the performance of the method of Dynamic Window-Based and Probabilistic methods. As for the accuracy of the system in taking the relevant documents can be seen from the value of Precision, Recall while for the system\u27s ability to take the relevant documents can be seen from the IAP value obtained. According to tests performed using the method of system performance with the Dynamic Window-Based Probabilistic better than those provided in the document there are terms that will create value conjoint similiarity maximum score. Change window width Dynamic Window Based on the method will also influence the performance of the system.Keyword: Information Retrieval System, Dynamic Window Based, similiarity score, Probabilistic,Precision, Recall, IAP

    Essays on text mining for improved decision making

    Get PDF

    Recherche d'information et fouille de textes

    Get PDF
    National audienceIntroduction Comprendre un texte est un but que l'Intelligence Artificielle (IA) s'est fixé depuis ses débuts et les premiers travaux apportant des réponses ont vu le jour dans les années 70s. Depuis lors, le thème est toujours d'actualité, bien que les buts et méthodes qu'il recouvre aient considérablement évolués. Il est donc nécessaire de regarder de plus près ce qui se cache derrière cette dénomination générale de « compréhension de texte ». Les premiers travaux, qui ont eu lieu du milieu des années 70 jusqu'au milieu des années 80 [Charniak 1972; Dyer 1983; Schank et al. 1977], étudiaient des textes relatant de courtes histoires et comprendre signifiait mettre en évidence les tenants et aboutissants de l'histoire-les sujets traités, les événements décrits, les relations de causalité les reliant-ainsi que le rôle de chaque personnage, ses motivations et ses intentions. La compréhension était vue comme un processus d'inférence visant à expliciter tout l'implicite présent dans un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. On rejoint ici les travaux effectués sur les différents formalismes de représentation des connaissances en IA, décrivant d'une part les sens associés aux mots de la langue (réseaux sémantiques vs logique, et notamment graphes conceptuels [Sowa 1984] et d'autre part les connaissances pragmatiques [Schank 1982]. Tous ces travaux ont montré leur limite dès lors qu'il s'agissait de modéliser manuellement ces connaissances pour tous les domaines, ou de les apprendre automatiquement. Le problème de la compréhension automatique en domaine ouvert restait donc entier. Puisque le problème ainsi posé est insoluble en l'état des connaissances, une approche alternative consiste à le redéfinir et à le décomposer en sous-tâches potentiellement plus faciles à résoudre. Ainsi la compréhension de texte peut être redéfinie selon différents points de vue sur le texte qui permettent de répondre à des besoins spécifiques. De même qu'un lecteur ne lit pas un texte de façon identique selon qu'il veut évaluer sa pertinence par rapport à un thème qui l'intéresse (tâche de type recherche documentaire), qu'il veut classer des documents, prendre connaissances des événements relatés ou rechercher une information précise, de même les processus automatiques seront multiples et s'intéresseront à des aspects différents du texte en fonction de la tâche visée. Suivant le type de connaissance cherché dans un document, le lecteur n'extraira du texte que l'information qui l'intéresse et s'appuiera pour cela sur les indices et sur les connaissances qui lui permettent de réaliser sa tâche de lecture, et donc de compréhension, sans avoir à tout assimiler. On peut alors parler de compréhension à niveaux variables, qui va permettre d'accéder à des niveaux de sens différents. Cette démarche est bien illustrée par les travaux en extraction d'information, évalués dans le cadre des conférences MUC [Grishman and Sundheim 1996], qui ont eu lieu de la fin des années 1980 jusqu'en 1998. L'extraction d'information consistait alors à modéliser un besoin d'information par un patron, décrit par un ensemble d'attributs typés, et à chercher à remplir ces attributs selon l'information contenue dans les textes. C'est ainsi que se sont notamment développées les recherches sur les « entités nommées » (à savoir le repérage de noms de personne, d'organisation, de lieu, de date, etc.) et sur les relations entre ces entités. C'est aussi dans cette optique que se sont développées les approches se situant au niveau du document, que ce soit pour la recherche d'information ou pour en déterminer la structur

    THREE ESSAYS ON THE APPLICATION OF MACHINE LEARNING METHODS IN ECONOMICS

    Get PDF
    Over the last decades, economics as a field has experienced a profound transformation from theoretical work toward an emphasis on empirical research (Hamermesh, 2013). One common constraint of empirical studies is the access to data, the quality of the data and the time span it covers. In general, applied studies rely on surveys, administrative or private sector data. These data are limited and rarely have universal or near universal population coverage. The growth of the internet has made available a vast amount of digital information. These big digital data are generated through social networks, sensors, and online platforms. These data account for an increasing part of the economic activity yet for economists, the availability of these big data also raises many new challenges related to the techniques needed to collect, manage, and derive knowledge from them. The data are in general unstructured, complex, voluminous and the traditional software used for economic research are not always effective in dealing with these types of data. Machine learning is a branch of computer science that uses statistics to deal with big data. The objective of this dissertation is to reconcile machine learning and economics. It uses threes case studies to demonstrate how data freely available online can be harvested and used in economics. The dissertation uses web scraping to collect large volume of unstructured data online. It uses machine learning methods to derive information from the unstructured data and show how this information can be used to answer economic questions or address econometric issues. The first essay shows how machine learning can be used to derive sentiments from reviews and using the sentiments as a measure for quality it examines an old economic theory: Price competition in oligopolistic markets. The essay confirms the economic theory that agents compete for price. It also confirms that the quality measure derived from sentiment analysis of the reviews is a valid proxy for quality and influences price. The second essay uses a random forest algorithm to show that reviews can be harnessed to predict consumers’ preferences. The third essay shows how properties description can be used to address an old but still actual problem in hedonic pricing models: the Omitted Variable Bias. Using the Least Absolute Shrinkage and Selection Operator (LASSO) it shows that pricing errors in hedonic models can be reduced by including the description of the properties in the models
    corecore