5,159 research outputs found

    The study of probability model for compound similarity searching

    Get PDF
    Information Retrieval or IR system main task is to retrieve relevant documents according to the users query. One of IR most popular retrieval model is the Vector Space Model. This model assumes relevance based on similarity, which is defined as the distance between query and document in the concept space. All currently existing chemical compound database systems have adapt the vector space model to calculate the similarity of a database entry to a query compound. However, it assumes that fragments represented by the bits are independent of one another, which is not necessarily true. Hence, the possibility of applying another IR model is explored, which is the Probabilistic Model, for chemical compound searching. This model estimates the probabilities of a chemical structure to have the same bioactivity as a target compound. It is envisioned that by ranking chemical structures in decreasing order of their probability of relevance to the query structure, the effectiveness of a molecular similarity searching system can be increased. Both fragment dependencies and independencies assumption are taken into consideration in achieving improvement towards compound similarity searching system. After conducting a series of simulated similarity searching, it is concluded that PM approaches really did perform better than the existing similarity searching. It gave better result in all evaluation criteria to confirm this statement. In terms of which probability model performs better, the BD model shown improvement over the BIR model

    Information Retrieval Performance Enhancement Using The Average Standard Estimator And The Multi-criteria Decision Weighted Set

    Get PDF
    Information retrieval is much more challenging than traditional small document collection retrieval. The main difference is the importance of correlations between related concepts in complex data structures. These structures have been studied by several information retrieval systems. This research began by performing a comprehensive review and comparison of several techniques of matrix dimensionality estimation and their respective effects on enhancing retrieval performance using singular value decomposition and latent semantic analysis. Two novel techniques have been introduced in this research to enhance intrinsic dimensionality estimation, the Multi-criteria Decision Weighted model to estimate matrix intrinsic dimensionality for large document collections and the Average Standard Estimator (ASE) for estimating data intrinsic dimensionality based on the singular value decomposition (SVD). ASE estimates the level of significance for singular values resulting from the singular value decomposition. ASE assumes that those variables with deep relations have sufficient correlation and that only those relationships with high singular values are significant and should be maintained. Experimental results over all possible dimensions indicated that ASE improved matrix intrinsic dimensionality estimation by including the effect of both singular values magnitude of decrease and random noise distracters. Analysis based on selected performance measures indicates that for each document collection there is a region of lower dimensionalities associated with improved retrieval performance. However, there was clear disagreement between the various performance measures on the model associated with best performance. The introduction of the multi-weighted model and Analytical Hierarchy Processing (AHP) analysis helped in ranking dimensionality estimation techniques and facilitates satisfying overall model goals by leveraging contradicting constrains and satisfying information retrieval priorities. ASE provided the best estimate for MEDLINE intrinsic dimensionality among all other dimensionality estimation techniques, and further, ASE improved precision and relative relevance by 10.2% and 7.4% respectively. AHP analysis indicates that ASE and the weighted model ranked the best among other methods with 30.3% and 20.3% in satisfying overall model goals in MEDLINE and 22.6% and 25.1% for CRANFIELD. The weighted model improved MEDLINE relative relevance by 4.4%, while the scree plot, weighted model, and ASE provided better estimation of data intrinsic dimensionality for CRANFIELD collection than Kaiser-Guttman and Percentage of variance. ASE dimensionality estimation technique provided a better estimation of CISI intrinsic dimensionality than all other tested methods since all methods except ASE tend to underestimate CISI document collection intrinsic dimensionality. ASE improved CISI average relative relevance and average search length by 28.4% and 22.0% respectively. This research provided evidence supporting a system using a weighted multi-criteria performance evaluation technique resulting in better overall performance than a single criteria ranking model. Thus, the weighted multi-criteria model with dimensionality reduction provides a more efficient implementation for information retrieval than using a full rank model

    ON RELEVANCE FILTERING FOR REAL-TIME TWEET SUMMARIZATION

    Get PDF
    Real-time tweet summarization systems (RTS) require mechanisms for capturing relevant tweets, identifying novel tweets, and capturing timely tweets. In this thesis, we tackle the RTS problem with a main focus on the relevance filtering. We experimented with different traditional retrieval models. Additionally, we propose two extensions to alleviate the sparsity and topic drift challenges that affect the relevance filtering. For the sparsity, we propose leveraging word embeddings in Vector Space model (VSM) term weighting to empower the system to use semantic similarity alongside the lexical matching. To mitigate the effect of topic drift, we exploit explicit relevance feedback to enhance profile representation to cope with its development in the stream over time. We conducted extensive experiments over three standard English TREC test collections that were built specifically for RTS. Although the extensions do not generally exhibit better performance, they are comparable to the baselines used. Moreover, we extended an event detection Arabic tweets test collection, called EveTAR, to support tasks that require novelty in the system's output. We collected novelty judgments using in-house annotators and used the collection to test our RTS system. We report preliminary results on EveTAR using different models of the RTS system.This work was made possible by NPRP grants # NPRP 7-1313-1-245 and # NPRP 7-1330-2-483 from the Qatar National Research Fund (a member of Qatar Foundation)

    Three-Way Analysis for a Better Understanding of Word Embedding Models

    Get PDF
    Word Embedding Models sind für eine Vielzahl von Problemen in der Informatik von großem Wert, insbesondere für die natürliche Sprachverarbeitung. Sie ermöglichen, indem sie sich auf die semantischen Kontexte von Wörtern konzentrieren, Beziehungen zwischen Textsegmenten genauer und mit weniger Verzerrung zu verstehen. Die Motivation dieser Arbeit ist die Tatsache, dass einige Aspekte von Word Embedding Models, zum Beispiel wie diese \u27Beziehungen\u27 interpretiert werden sollten und wie weit verschiedene embedding models vergleichbar sind, noch nicht klar genug erfasst worden sind. Wir gruppieren diese Aspekte in drei Kategorien: in algorithmische Fragen, theoretische Fragen und Anwendungsfragen. Auf diesen drei Kategorien basierend präsentieren wir in dieser Arbeit eine Drei-Wege-Bewertung von Word Embedding Models. Der erste Bewertungssatz untersucht den Trainingsalgorithmus von Word Embedding Models. In der bisherigen Literatur wurden Word Embedding Models verwendet, ohne die Tatsache zu berücksichtigen, dass ihre Ähnlichkeitswertverteilungen erheblich unterschiedlich sein können. Unser erster Beitrag besteht darin, zu zeigen, dass Modelle, die mit unterschiedlichen Parametereinstellungen trainiert wurden, sich in der Größe ihrer Ähnlichkeitswerte erheblich unterscheiden können, obwohl gleichzeitig die Form ihrer Verteilung tatsächlich grundlegend ähnlich ist. Ein großer Vorteil der Embedding Models besteht darin, dass sie auf beliebigen Textkorpora trainiert werden können. Während die Qualität von Word Embedding Models, die auf Volltextkorpora trainiert wurden, ziemlich bekannt ist, fehlt eine Bewertung von Modellen, die auf fragmentierten Korpora basieren. Um diese Lücke zu schließen, beschreiben wir im zweiten Teil des Abschnitts zur algorithmischen Bewertung Experimente, deren Ziel es ist zu untersuchen, wie sich die Modellqualität dann ändert, wenn der Trainingskorpus nicht Volltext, sondern n-Gramm ist. Die Experimente quantifizieren, um wie viel Fragmentierung (d. h. Werte von nn) die durchschnittliche Qualität der entsprechenden Word Embedding Models auf der Basis gemeinsamer Wortähnlichkeit und analoger Argumentationstestsätze verringert. Der zweite Bewertungssatz betrifft die Ähnlichkeitswerte von Word Embedding Models aus theoretischer Sicht. Wir untersuchen Fragen wie: Was bedeuten Ähnlichkeitswerte dieser Modelle tatsächlich? Wenn beispielsweise Wort A Wort B mehr als 0,5 ähnlich ist, sind A und B dann immer semantisch ähnlich? Wir beantworten diese und andere ebenso wichtige Fragen zu Ähnlichkeitswerten. Wir identifizieren sinnvolle Ähnlichkeitsschwellen, d. h. Ähnlichkeitswerte und Ähnlichkeitslistenindizes, die relevante Wortpaare von irrelevanten trennen. Basierend auf diesen Schwellenwerten schlagen wir eine Bewertungsmethode für Word Embedding Models vor, bei der die Wortpaare, die unter den berechneten Schwellenwert fallen, nicht verglichen werden. Dies gewährleistet in Zukunft einen zuverlässigeren Vergleich von Word Embedding Models. Unsere abschließende Bewertung befasst sich mit der Anwendbarkeit von Word Embedding Models in nachgeschalteten Anwendungen. Aufgrund ihres Verständnisses von Wörtern ist die Textklassifizierung, d. h. das Zuweisen vordefinierter Kategorien zu Textdokumenten, einer der intuitivsten Anwendungsfälle für Word Embedding Models. Je mehr beschriftete Stichproben einem Textklassifizierer präsentiert werden, desto besser können normalerweise Kategorien unbekannter Stichproben vorhergesagt werden. In den meisten Fällen ist der Großteil der Daten jedoch unbeschriftet, und die Kennzeichnung ein kostspieliger und zeitaufwändiger Prozess. In dieser Arbeit untersuchen wir die Möglichkeit, die Qualität der Textklassifizierung trotz des Mangels an gekennzeichneten Daten zu verbessern. Wir präsentieren einen lexikalischen Substitutionsansatz für die Vorverarbeitung, der die Knappheit markierter Daten kompensiert. Es ist eine orthogonale Erweiterung für praktisch jeden vorhandenen Textklassifizierungsansatz, um die Klassifizierungsgenauigkeit zu verbessern. Unser Ansatz ersetzt Wörter, die dem Klassifizierer unbekannt sind, durch bekannte Wörter für statistische Robustheit, basierend auf dem Hauptbeitrag dieses Teils: einem neuartigen semantisch verteilten Wortabstandsmaß, das sowohl semantische Informationen aus Word Embedding Models als auch Verteilungsinformationen aus den Trainingsdaten enthält. Dies ist das erste Mal, dass die Kombination dieser beiden Informationen für die Textklassifizierung verwendet wird

    Confusion Modelling - An Estimation by Semantic Embeddings

    Get PDF
    Approaching the task of coherence assessment of a conversation from its negative perspective ‘confusion’ rather than coherence itself, has been attempted by very few research works. Influencing Embeddings to learn from similarity/dissimilarity measures such as distance, cosine similarity between two utterances will equip them with the semantics to differentiate a coherent and an incoherent conversation through the detection of negative entity, ‘confusion’. This research attempts to measure coherence of conversation between a human and a conversational agent by means of such semantic embeddings trained from scratch by an architecture centralising the learning from the distance between the embeddings. State of the art performance of general BERT’s embeddings and state of the art performance of ConveRT’s conversation specific embeddings in addition to the GLOVE embeddings are also tested upon the laid architecture. Confusion, being a more sensible entity, real human labelling performance is set as the baseline to evaluate the models. The base design resulted in not such a good performance against the human score but the pre-trained embeddings when plugged into the base architecture had performance boosts in a particular order from lowest to highest, through BERT, GLOVE and ConveRT. The intuition and the efficiency of the base conceptual design is proved of its success when the variant having the ConveRT embeddings plugged into the base design, outperformed the original ConveRT’s state of art performance on generating similarity scores. Though a performance comparable to real human performance was not achieved by the models, there witnessed a considerable overlapping between the ConveRT variant and the human scores which is really a great positive inference to be enjoyed as achieving human performance is always the state of art in any research domain. Also, from the results, this research joins the group of works claiming BERT to be unsuitable for conversation specific modelling and embedding works
    corecore