15 research outputs found

    LinkedScales : bases de dados em multiescala

    Get PDF
    Orientador: André SantanchèTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: As ciências biológicas e médicas precisam cada vez mais de abordagens unificadas para a análise de dados, permitindo a exploração da rede de relacionamentos e interações entre elementos. No entanto, dados essenciais estão frequentemente espalhados por um conjunto cada vez maior de fontes com múltiplos níveis de heterogeneidade entre si, tornando a integração cada vez mais complexa. Abordagens de integração existentes geralmente adotam estratégias especializadas e custosas, exigindo a produção de soluções monolíticas para lidar com formatos e esquemas específicos. Para resolver questões de complexidade, essas abordagens adotam soluções pontuais que combinam ferramentas e algoritmos, exigindo adaptações manuais. Abordagens não sistemáticas dificultam a reutilização de tarefas comuns e resultados intermediários, mesmo que esses possam ser úteis em análises futuras. Além disso, é difícil o rastreamento de transformações e demais informações de proveniência, que costumam ser negligenciadas. Este trabalho propõe LinkedScales, um dataspace baseado em múltiplos níveis, projetado para suportar a construção progressiva de visões unificadas de fontes heterogêneas. LinkedScales sistematiza as múltiplas etapas de integração em escalas, partindo de representações brutas (escalas mais baixas), indo gradualmente para estruturas semelhantes a ontologias (escalas mais altas). LinkedScales define um modelo de dados e um processo de integração sistemático e sob demanda, através de transformações em um banco de dados de grafos. Resultados intermediários são encapsulados em escalas reutilizáveis e transformações entre escalas são rastreadas em um grafo de proveniência ortogonal, que conecta objetos entre escalas. Posteriormente, consultas ao dataspace podem considerar objetos nas escalas e o grafo de proveniência ortogonal. Aplicações práticas de LinkedScales são tratadas através de dois estudos de caso, um no domínio da biologia -- abordando um cenário de análise centrada em organismos -- e outro no domínio médico -- com foco em dados de medicina baseada em evidênciasAbstract: Biological and medical sciences increasingly need a unified, network-driven approach for exploring relationships and interactions among data elements. Nevertheless, essential data is frequently scattered across sources with multiple levels of heterogeneity. Existing data integration approaches usually adopt specialized, heavyweight strategies, requiring a costly upfront effort to produce monolithic solutions for handling specific formats and schemas. Furthermore, such ad-hoc strategies hamper the reuse of intermediary integration tasks and outcomes. This work proposes LinkedScales, a multiscale-based dataspace designed to support the progressive construction of a unified view of heterogeneous sources. It departs from raw representations (lower scales) and goes towards ontology-like structures (higher scales). LinkedScales defines a data model and a systematic, gradual integration process via operations over a graph database. Intermediary outcomes are encapsulated as reusable scales, tracking the provenance of inter-scale operations. Later, queries can combine both scale data and orthogonal provenance information. Practical applications of LinkedScales are discussed through two case studies on the biology domain -- addressing an organism-centric analysis scenario -- and the medical domain -- focusing on evidence-based medicine dataDoutoradoCiência da ComputaçãoDoutor em Ciência da Computação141353/2015-5CAPESCNP

    Unsupervised instance selection from text streams

    Get PDF
    Instance selection techniques have received great attention in the literature, since they are very useful to identify a subset of instances (textual documents) that adequately represents the knowledge embedded in the entire text database. Most of the instance selection techniques are supervised, i.e., requires a labeled data set to define, with the help of classifiers, the separation boundaries of the data. However, manual labeling of the instances requires an intense human effort that is impractical when dealing with text streams. In this article, we present an approach for unsupervised instance selection from text streams. In our approach, text clustering methods are used to define the separation boundaries, thereby separating regions of high data density. The most representative instances of each cluster, which are the centers of high-density regions, are selected to represent a portion of the data. A well-known algorithm for data sampling from streams, known as Reservoir Sampling, has been adapted to incorporate the unsupervised instance selection. We carried out an experimental evaluations using three benchmarking text collections and the reported experimental results show that the proposed approach significantly increases the quality of a knowledge extraction task by using more representative instances.FAPESP - São Paulo Research Foundation (grant 2010/20564-8)CAPESCNPq1st. Symposium on Knowledge Discovery, Mining and Learning (KDMiLe).\ud São Carlos, Brazil. 17-19 July 2013

    Elaboração de modelos de domínio em ontologias: a abordagem onomasiológica e a função da definição

    Get PDF
    A captura do conhecimento para a elaboração de modelos de domínios pode adotar uma abordagem semasiológica de perspectiva linguística (partindo do termo para o conceito) ou a abordagem onomasiológica, de perspectiva extralinguística (partindo do conceito para o termo). No que tange às ontologias, a adoção da abordagem semasiológica, na maioria das vezes, no que concerne à atividade de captura de conhecimento, reflete um procedimento de análise de textos eletrônicos, partindo da linguagem natural e do texto escrito em seus diversos formatos. Já a abordagem onomasiológica considera primeiramente que se chega ao termo através do extralinguístico, ou seja, a partir do entendimento do referente no âmbito de um domínio de especialidade; o termo seria o término de uma atividade de conotação sobre o referente. Este artigo aborda a metodologia apoiada na abordagem onomasiológica elaborada por I. Dahlberg, e demonstram-se os papéis que as definições possuem nesta atividade. A definição, neste sentido, é entendida como produto de um acordo estabelecido entre o modelizador/ontologista e o especialista do domínio; ela reflete o modelo pretendido de representação do mundo modelado

    A Multi-Armed Bandit Model Selection for Cold-Start User Recommendation

    Get PDF
    International audienceHow can we effectively recommend items to a user about whom we have no information? This is the problem we focus on, known as the cold-start problem. In this paper, we focus on the cold user problem.In most existing works, the cold-start problem is handled through the use of many kinds of information available about the user. However, what happens if we do not have any information?Recommender systems usually keep a substantial amount of prediction models that are available for analysis. Moreover, recommendations to new users yield uncertain returns. Assuming a number of alternative prediction models is available to select items to recommend to a cold user, this paper introduces a multi-armed bandit based model selection, named PdMS.In comparison with two baselines, PdMS improves the performance as measured by the nDCG.These improvements are demonstrated on real, public datasets

    A Scalable Solution For Interactive Video Streaming

    Get PDF
    This dissertation presents an overall solution for interactive Near Video On Demand (NVOD) systems, where limited server and network resources prevent the system from servicing all customers’ requests. The interactive nature of recent workloads complicates matters further. Interactive requests require additional resources to be handled. This dissertation analyzes the system performance under a realistic workload using different stream merging techniques and scheduling policies. It considers a wide range of system parameters and studies their impact on the waiting and blocking metrics. In order to improve waiting customers experience, we propose a new scheduling policy for waiting customers that is fairer and delivers a descent performance. Blocking is a major issue in interactive NVOD systems and we propose a few techniques to minimize it. In particular, we study the maximum Interactive Stream (I-Stream) length (Threshold) that should be allowed in order to prevent a few requests from using the expensive I-Streams for a prolonged period of time, which starves other requests from a chance of using this valuable resource. Using a reasonable I-Stream threshold proves very effective in improving blocking metrics. Moreover, we introduce an I-Stream provisioning policy to dynamically shift resources based on the system requirements at the time. The proposed policy proves to be highly effective in improving the overall system performance. To account for both average waiting time and average blocking time, we introduce a new metric (Aggregate Delay) . We study the client-side cache management policy. We utilize the customer’s cache to service most interactive requests, which reduces the load on the server. We propose three purging algorithms to clear data when the cache gets full. Purge Oldest removes the oldest data in the cache, whereas Purge Furthest clears the furthest data from the client’s playback point. In contrast, Adaptive Purge tries to avoid purging any data that includes the customer’s playback point or the playback point of any stream that is being listened to by the client. Additionally, we study the impact of the purge block, which is the least amount of data to be cleared, on the system performance. Finally, we study the effect of bookmarking on the system performance. A video segment that is searched and watched repeatedly is called a hotspot and is pointed to by a bookmark. We introduce three enhancements to effectively support bookmarking. Specifically, we propose a new purging algorithm to avoid purging hotspot data if it is already cached. On top of that, we fetch hotspot data for customers not listening to any stream. Furthermore, we reserve multicast channels to fetch hotspot data

    Previsão automática de evasão estudantil: um estudo de caso na UFCG.

    Get PDF
    A evasão estudantil é uma das maiores preocupações dos institutos de ensino superior brasileiros já que ela pode ser uma das causas de desperdício de recursos da Universidade. A previsão dos estudantes com alta probabilidade de evasão, assim como o entendimento das causas que os levaram a evadir, são fatores cruciais para a definição mais efetiva de ações preventivas para o problema. Nesta dissertação, o problema da detecção de evasão foi abordado como um problema de aprendizagem de máquina supervisionada. Utilizou-se uma amostra de registros acadêmicos de estudantes considerando-se todos os 76 cursos da Universidade Federal de Campina Grande com o objetivo de obter e selecionar atributos informativos para os modelos de classificação e foram criados dois tipos de modelos, um que separa os estudantes por cursos e outro que não faz distinção de cursos. Os dois modelos criados foram comparados e pôde-se concluir que não fazer distinção de alunos por curso resulta em melhores resultados que fazer distinção de alunos por curso.Students’ dropout is a major concern of the Brazilian higher education institutions as it may cause waste of resources. The early detection of students with high probability of dropping out, as well as understanding the underlying causes, are crucial for defining more effective actions toward preventing this problem. In this paper, we cast the dropout detection problem as a supervised learning problem. We use a large sample of academic records of students across 76 courses from a public university in Brazil in order to derive and select informative features for the employed classifiers. We create two classification models that either consider the course to which the target student is formally committed or not consider it, respectively. We contrast both models and show that not considering the course leads to better results

    TUTAForm: questionário multimídia adaptado para respondente surdo

    Get PDF
    With the guidelines and inclusion laws Assistive Technology features have been developed. As for other interactive products, these should pass through usability assessments that take into account the perspective of real users. In the traditional approaches of observation of the interaction it is common the use of questionnaires to identify the profile, satisfaction and emotional state of the participants. These instruments may be inadequate when their respondents are deaf people who are not fluent in the Portuguese language. Aiming to promote the autonomy of deaf users in the evaluation process of AT resources, this paper describes the planning and conduction of participatory design workshops to adapt questionnaires. The workshops were conducted with interpreters of LIBRAS and deaf people and the resulting questionnaire has multimedia representations for questions/answers. A beta version of the solution was used by deaf people after a set of simulated interaction observation sessions. The results are also described.NenhumaCom as diretrizes e leis de inclusão recursos de Tecnologia Assistiva vêm sendo desenvolvidos. Assim como para demais produtos interativos, estes devem passar por avaliações de usabilidade que considerem a perspectiva dos usuários reais. Nas abordagens tradicionais de observação da interação é comum o uso de questionários para identificação do perfil, satisfação e estado emocional dos participantes. Estes instrumentos podem ser inadequados quando seus respondentes são pessoas surdas não fluentes na língua portuguesa. Visando promover a autonomia de usuários surdos no processo de avaliação de recursos de TA, este trabalho descreve o planejamento e condução de oficinas de design participativo para adaptação de questionários. As oficinas foram realizadas com intérpretes de LIBRAS e pessoas surdas e o questionário resultante possui representações multimídia para questões/respostas. Uma versão beta da solução foi utilizada por pessoas surdas após um conjunto de sessões simuladas de observação da interação. Os resultados também são descritos

    Reengenharia de uma Ontologia de Processo de Software e seu uso para a Integração de Ferramentas de Apoio ao Planejamento de Projetos.

    Get PDF
    Com o crescimento do interesse na área de integração entre sistemas de software, surgiram abordagens que visam tratar este problema. De maneira geral, a integração de sistemas pode ocorrer em quatro níveis: de hardware, de plataforma, sintático e semântico. No nível semântico, foco deste trabalho, durante o processo de integração, o significado dos componentes envolvidos deve ser o mais claro possível, ou seja, o significado pretendido dos conceitos no esquema de dados, nas assinaturas das operações e dos serviços deve ser explicitado. Neste contexto, uma ontologia de domínio pode ser utilizada para definir uma representação explícita dessa conceituação compartilhada e ser usada como referência durante a integração. Este trabalho aplicou a abordagem OBA-SI, uma abordagem de integração semântica baseada em ontologia, para integrar na camada de dados ferramentas que apoiam o planejamento, controle e acompanhamento de projeto de software. Durante o processo de integração, foi utilizado uma ontologia de processo de software, a SPO (Software Process Ontology) para adicionar semântica aos conceitos das ferramentas envolvidas nesse processo. Para servir adequadamente como um modelo de referência, a SPO passou por um processo de reengenharia baseada na UFO (Unified Foundational Ontology), uma ontologia de fundamentação
    corecore