7 research outputs found

    ChemVA: Interactive visual analysis of chemical compound similarity in virtual screening

    Get PDF
    In the modern drug discovery process, medicinal chemists deal with the complexity of analysis of large ensembles of candidate molecules. Computational tools, such as dimensionality reduction (DR) and classification, are commonly used to efficiently process the multidimensional space of features. These underlying calculations often hinder interpretability of results and prevent experts from assessing the impact of individual molecular features on the resulting representations. To provide a solution for scrutinizing such complex data, we introduce ChemVA, an interactive application for the visual exploration of large molecular ensembles and their features. Our tool consists of multiple coordinated views: Hexagonal view, Detail view, 3D view, Table view, and a newly proposed Difference view designed for the comparison of DR projections. These views display DR projections combined with biological activity, selected molecular features, and confidence scores for each of these projections. This conjunction of views allows the user to drill down through the dataset and to efficiently select candidate compounds. Our approach was evaluated on two case studies of finding structurally similar ligands with similar binding affinity to a target protein, as well as on an external qualitative evaluation. The results suggest that our system allows effective visual inspection and comparison of different high-dimensional molecular representations. Furthermore, ChemVA assists in the identification of candidate compounds while providing information on the certainty behind different molecular representations.Fil: Sabando, María Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Ulbrich, Pavol. Masaryk University. Faculty of Sciences; República ChecaFil: Selzer, Matias Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Ciencias de la Imágenes; ArgentinaFil: Byska, Jan. Masaryk University. Faculty of Sciences; República ChecaFil: Mican, Jan. Masaryk University. Faculty of Sciences; República ChecaFil: Ponzoni, Ignacio. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Ganuza, María Luján. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Ciencias de la Imágenes; ArgentinaFil: Kozlikova, Barbora. Masaryk University. Faculty of Sciences; República Chec

    Recuperação da informação e a consulta à base de dados no processo de busca do Mecanismo Online para Referências

    Get PDF
    Os dados das organizações crescem, exponencialmente, a cada ano e têm trazido aos administradores e gerentes incremento para tomada de decisão à qual são diariamente submetidos. Para a gestão destes dados, bem como, para descoberta de informações neles contidas, surgiram os Sistemas de Recuperação da Informação - largamente empregados no ambiente organizacional, atualmente. A Recuperação da Informação foi desenvolvida com a finalidade precípua de fornecer, rapidamente, aos usuários a informação que procuram. A avaliação de um Sistema de Recuperação da Informação é focada em seu motor de busca, medindo o quão rápido ele pode responder a uma consulta, ou o nível de relevância da informação recuperada. Este trabalho tem como objetivo verificar o impacto da utilização de motores de busca, baseados no Apache Solr® , no processo de recuperação da informação contida na base de dados do Mecanismo Online para Referências. Assim, buscaram-se na bibliografia, fundamentos para conceituar a Recuperação da Informação e tratar sobre as peculiaridades que se coadunam com o escopo desta pesquisa. Abordam-se as principais características do servidor de recuperação da informação Apache Solr® e do protótipo desenvolvido para os propósitos deste trabalho. Cabe esclarecer que o Apache Solr® foi configurado para ordenar os resultados pelo nível de relevância, sendo o Modelo de Espaço Vetorial utilizado no cálculo do grau de similaridade. Na sequência, os dados colhidos são tabulados, apresentados e analisados. Concluise que a utilização de motores de busca, baseados no Apache Solr® , impacta, positivamente, no processo de recuperação da informação contida na base de dados do Mecanismo Online para Referências.The data of organizations grows exponentially each year and has brought increment to the administrators and managers in the decision-making process, which they are daily submitted. In order to manage this data and discover information contained on them, the Information Retrieval Systems is widely used in the organizational environment. The Information Retrieval was mainly developed to provide quickly to the users the information they seek. The evaluation of an Information Retrieval System is focused on its search engine, measuring how fast it can respond to a query, or the relevance level of the retrieved information. This study verifies the impact of using search engines, based on Apache Solr®, at the information retrieval process contained in the Mecanismo Online para Referências database. Thus, we researched the literature, searching for fundamentals to conceptualize the Information Retrieval and to deal with the peculiarities that are consistent with the scope of this research. We analyze the main features of the Apache Solr® Information Retrieval Server and the developed prototype built to evaluate this study. It should be clarify that the Apache Solr® was set up to sort the results by relevance level, and the Vector Space Model was used to calculate the degree of similarity. After that, the collected data is tabulated, presented and analyzed. We conclude that the use of search engines, based on Apache Solr® , impacts positively on the information retrieval process contained in the Mecanismo Online para Referências database

    Recuperação da informação e a consulta à base de dados no processo de busca do Mecanismo Online para Referências

    Get PDF
    The data of organizations grows exponentially each year and has brought increment to the administrators and managers in the decision-making process, which they are daily submitted. In order to manage this data and discover information contained on them, the Information Retrieval Systems is widely used in the organizational environment. The Information Retrieval was mainly developed to provide quickly to the users the information they seek. The evaluation of an Information Retrieval System is focused on its search engine, measuring how fast it can respond to a query, or the relevance level of the retrieved information. This study verifies the impact of using search engines, based on Apache Solr®, at the information retrieval process contained in the Mecanismo Online para Referências database. Thus, we researched the literature, searching for fundamentals to conceptualize the Information Retrieval and to deal with the peculiarities that are consistent with the scope of this research. We analyze the main features of the Apache Solr® Information Retrieval Server and the developed prototype built to evaluate this study. It should be clarify that the Apache Solr® was set up to sort the results by relevance level, and the Vector Space Model was used to calculate the degree of similarity. After that, the collected data is tabulated, presented and analyzed. We conclude that the use of search engines, based on Apache Solr® , impacts positively on the information retrieval process contained in the Mecanismo Online para Referências database.Os dados das organizações crescem, exponencialmente, a cada ano e têm trazido aos administradores e gerentes incremento para tomada de decisão à qual são diariamente submetidos. Para a gestão destes dados, bem como, para descoberta de informações neles contidas, surgiram os Sistemas de Recuperação da Informação - largamente empregados no ambiente organizacional, atualmente. A Recuperação da Informação foi desenvolvida com a finalidade precípua de fornecer, rapidamente, aos usuários a informação que procuram. A avaliação de um Sistema de Recuperação da Informação é focada em seu motor de busca, medindo o quão rápido ele pode responder a uma consulta, ou o nível de relevância da informação recuperada. Este trabalho tem como objetivo verificar o impacto da utilização de motores de busca, baseados no Apache Solr® , no processo de recuperação da informação contida na base de dados do Mecanismo Online para Referências. Assim, buscaram-se na bibliografia, fundamentos para conceituar a Recuperação da Informação e tratar sobre as peculiaridades que se coadunam com o escopo desta pesquisa. Abordam-se as principais características do servidor de recuperação da informação Apache Solr® e do protótipo desenvolvido para os propósitos deste trabalho. Cabe esclarecer que o Apache Solr® foi configurado para ordenar os resultados pelo nível de relevância, sendo o Modelo de Espaço Vetorial utilizado no cálculo do grau de similaridade. Na sequência, os dados colhidos são tabulados, apresentados e analisados. Concluise que a utilização de motores de busca, baseados no Apache Solr® , impacta, positivamente, no processo de recuperação da informação contida na base de dados do Mecanismo Online para Referências

    Gestão dos metadados contidos nos identificadores de objetos de biblioteconomia

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Programa de Pós-Graduação em Tecnologias da Informação e Comunicação, Araranguá, 2016.O intuito do presente trabalho é analisar o impacto que o gerenciamento dos metadados contidos em identificadores digitais de objetos, utilizados na Biblioteconomia e apoiados pelas Tecnologias da Informação e Comunicação, pode causar sobre a usabilidade do Mecanismo Online para Referências e sobre a satisfação dos usuários ao fazer uso do mesmo. Para a realização desta pesquisa, um protótipo que recupera os metadados vinculados a um determinado Digital Object Identifier junto aos repositórios das Autoridades de Registro da International DOI Foundation foi desenvolvido e integrado ao Mecanismo Online para Referências, com o objetivo de auxiliar seus usuários preenchendo automaticamente campos do formulário de geração de referências a artigos de periódico. Um questionário para levantar o grau de utilidade percebida frente as funcionalidades do protótipo permaneceu disponível durante cinco meses para ser respondido pelos usuários que fizeram uso destas. O referido questionário é constituído por dez questões fechadas e uma questão aberta. Uma escala de Likert de seis níveis foi adotada para quantificar as opções de resposta das questões fechadas. A estrutura deste relatório comporta 8 (oito) capítulos, a saber: Introdução; Recuperação da Informação; Identificação de Recursos de Informação; Tecnologias Computacionais Utilizadas; Procedimentos Metodológicos; Desenvolvimento do Protótipo; Resultados; e, Considerações Finais. Da análise dos dados coletados, conclui-se que a gestão aqui abordada impacta positivamente na usabilidade do sistema e no grau de utilidade percebida e de satisfação do usuário, em concordância com 93,9% dos usuários amostrados.Abstract : The purpose of this study is to analyze the impact that the digital object identifiers contained metadata, used in Librarianship and supported by Information and Communication Technologies, can have on Mecanismo Online para Referências? quality and on the perceived user satisfaction while using the application. In order to validate this research, a prototype that retrieves metadata linked to a particular Digital Object Identifier from the Registration Authorities of the International DOI Foundation repositories was developed and integrated into Mecanismo Online para Referências to assist its users by automatically filling form fields used to generate references to journal papers. A questionnaire to determine the perceived usefulness degree of the prototype?s functionalities remained available during five months to be answered by users that used it. The questionnaire consists of ten closed questions and one open question. A six levels? Likert scale was adopted to quantify the response options of closed questions. The structure of this report contains eight (8) chapters, namely: Introduction; Information Retrieval; Information Resources Identification; Used Computer Technologies; Methodological Procedures; Prototype Development; Results; Final Considerations. From the analysis of the sampled data and concludes that the proposed functionality impacts positively the application?s quality and the perceived degree of usefulness and user satisfaction, as agreed by 93.9% of the sampled users

    確率モデル集合の階層モデリング

    Get PDF
    本研究の目的は階層モデリングの計算理論構築である.階層モデリングとはモデルの集合をさらにモデル化することである.すなわち複数の解析対象に対して個々をモデル化すると同時に,モデル集合全体を高次モデル化し,対象に共通する普遍的な法則性を表現することである.本研究では特に,機械学習における普遍的表現である確率モデル集合の階層モデリングの計算理論を構築する.これを通してマルチタスク学習,マルチビュー学習,マルチレベル解析,メタ解析等の研究領域群を統一的な枠組みで体系化することをめざす.確率モデル集合の階層モデリングでは以下の3つの問題が存在する.(1)確率モデル空間は線形空間でないため,モデル間の補間や距離の概念自体が非自明である.(2)関数回帰によるモデリングの場合は無限次元確率変数のモデル空間となるため,モデル間距離の有界性や有限時間での計算可能性が保証されない.(3)教師なし学習によるモデリングの場合は,高次モデル化に必要な情報が不完全にしか得られない.そこで本研究では,(1)情報幾何の観点で平坦な空間を用いることで距離や補間の問題を解決し,(2)無限次元の場合でも有界性と計算有限性を持つ距離を定義できることを示し,(3)教師なし学習による不完全情報下でも階層モデリングが可能な計算原理を提案した.さらに発展的取り組みとして,(4)球体のような非平坦モデル空間における階層モデリングについても理論化を試みた.本論文の構成は以下のとおりである.第一章では序論として研究の背景および目的と論文の構成について述べる.第二章では階層モデリングの基礎となる概念と手法についてまとめる.はじめに階層モデリングについて概説した後,本研究で取り扱う確率モデル集合の階層モデリングの定義と問題設定を述べる.また先行研究を交えて体系的分類を提案する.第三章では,本論文に必要な基礎知識を概説する.第四章では,確率的ノンパラメトリック回帰の代表であるガウス過程回帰を取り上げ,回帰モデル集合の階層モデリングの理論化を行う.特に無限次元確率変数のモデル間距離の定義と,有界性・計算有限性の証明を行う.さらに情報幾何的主成分分析により階層モデリングの実装例を示す.第五章,第六章では,教師なし学習の階層モデリングにおける不完全情報推定について述べる.ここでは自己組織化マップ(Self-Organizing Map: SOM)を代表例として取り上げ,情報幾何における2種の平坦性(m平坦・e平坦)に対応するアルゴリズムを提案する.第五章ではm平坦下での階層モデリング,第六章ではe平坦下での階層モデリングについて述べる.第七章では,非平坦なモデル空間であるグラスマン多様体における階層モデリングについて述べる.その一例として,複数の異なる観測手段によるデータから観測者の意図を推定する潜在視点推定法を提案する.第八章は討論と総括であり,階層モデリングの体系的理解について検討し,論文全体をまとめる.九州工業大学博士学位論文 学位記番号:生工博甲第319号 学位授与年月日:平成30年3月23日第1章 序論|第2章 階層モデリング|第3章 基礎知識|第4章 ガウス過程集合の情報幾何的主成分分析|第5章 m型マルチレベルテンソルSOM(m-MLTSOM)|第6章 e型マルチレベルテンソルSOM(e-MLTSOM)|第7章 調査データの潜在視点解|第8章 討論と総括九州工業大学平成29年

    Information retrieval approach to meta-visualization

    Get PDF
    Visualization is crucial in the first steps of data analysis. In visual data exploration with scatter plots, no single plot is sufficient to analyze complicated high-dimensional data sets. Given numerous visualizations created with different features or methods, meta-visualization is needed to analyze the visualizations together. We solve how to arrange numerous visualizations onto a meta-visualization display, so that their similarities and differences can be analyzed. Visualization has recently been formalized as an information retrieval task: we extend this approach, and formalize meta-visualization as an information retrieval task whose performance can be rigorously quantified and optimized. We introduce a machine learning approach to optimize the meta-visualization, based on an information retrieval perspective: two visualizations are similar if the analyst would retrieve similar neighborhoods between data samples from either visualization. Based on the approach, we introduce a nonlinear embedding method for meta-visualization: it optimizes locations of visualizations on a display, so that visualizations giving similar information about data are close to each other. In experiments we show such meta-visualization outperforms alternatives, and yields insight into data in several case studies.acceptedVersionPeer reviewe
    corecore