15 research outputs found

    Técnicas de recuperación de información en grandes volúmenes de datos heterogéneos con bases de datos NOSQL

    Get PDF
    El presente proyecto se enfoca en la evaluación de las técnicas existentes para recuperación eficiente de información sobre grandes volúmenes de datos heterogéneos. Dichas técnicas permitirán establecer las capacidades necesarias con las que debería contar una base de datos de información masiva, tanto desde la perspectiva de almacenamiento y técnicas de indexación, como de distribución de las consultas, escalabilidad y rendimiento en ambientes heterogéneos. Para ello se diseñarán arquitecturas tanto centralizadas como distribuidas, y se realizarán las correspondientes verificaciones, estableciendo los porcentajes de mejora de rendimiento para cada arquitectura.Eje: Procesamiento distribuido y paraleloRed de Universidades con Carreras en Informática (RedUNCI

    Escalabilidad y paralelización mediante el uso de Hadoop Distributed File System

    Get PDF
    En el marco del proyecto de investigación "Técnicas de recuperación de información en grandes volúmenes de datos heterogéneos con bases de datos NOSQL" , el presente trabajo se orienta a evaluar configuraciones de clusters utilizando Hadoop Distributed File System (HDFS) para comprobar las capacidades de disponibilidad, escalabilidad y paralelización en la recuperación de información. Dicha evaluación permitirá establecer las capacidades necesarias con las que debería contar un File System Distribuido, tanto desde la perspectiva de almacenamiento y técnicas de indexación, como de distribución de las consultas, paralelización, escalabilidad y rendimiento en ambientes heterogéneos. Para ello se diseñarán arquitecturas tanto centralizadas como distribuidas, y se realizarán las correspondientes verificaciones, estableciendo los porcentajes de mejora de rendimiento para cada arquitectura.Eje: Procesamiento Distribuido y ParaleloRed de Universidades con Carreras en Informática (RedUNCI

    Design and Implementation of Virtual Grid-Based Parallel Computer (VGBPC)

    Get PDF
    : Many Areas in Science and industrial applications requires huge computation power that is must achieve the desired level of computation. The field of distributed computing covers all aspects of computing and information access across multiple processing elements connected by any form of communication network. In this paper we investigate the design and implementation of a grid based system depending on an Intranet based on Windows operating system. The proposed Virtual Grid-Based Parallel Computer (VGBPC) system was written using C# and .NET 3.5 framework. The system uses the remote computer as a node to accomplish the execution task. The Grid Manger system was built to be initiated on the server of the Intranet which responsible of partitioning the task and assigning each partition to Grid thread that is transmitted to the Grid Executer. The Grid Executer implemented in this work responsible of receiving the threads from the Grid manger, executing them and resending them back to the Grid Manager. The proposed system was used to accomplish parallel Prime Number Checker to investigate the (VGBPC) capabilities

    Nearest Neighbor Clustering over Partitioned Data

    Get PDF
    Most clustering algorithms assume that all the relevant data are available on a single node of a computer network. In the emerging distributed and networked knowledge environments, databases relevant for computations may reside on a number of nodes connected by a communication network. These data resources cannot be moved to other network sites due to privacy, security, and size considerations. The desired global computation must be decomposed into local computations to match the distribution of data across the network. The capability to decompose computations must be general enough to handle different distributions of data and different participating nodes in each instance of the global computation. In this paper, we present a methodology and algorithm for clustering distributed data in d-dimensional space, using nearest neighbor clustering, wherein each distributed data source is represented by an agent. Each such agent has the capability to decompose global computations into local parts, for itself and for agents at other sites. The global computation is then performed by the agent either exchanging some minimal summaries with other agents or traveling to all the sites and performing local tasks that can be done at each local site. The objective is to perform global tasks with a minimum of communication or travel by participating agents across the network

    Distributed incremental fingerprint identification with reduced database penetration rate using a hierarchical classification based on feature fusion and selection

    Get PDF
    Fingerprint recognition has been a hot research topic along the last few decades, with many applications and ever growing populations to identify. The need of flexible, fast identification systems is therefore patent in such situations. In this context, fingerprint classification is commonly used to improve the speed of the identification. This paper proposes a complete identification system with a hierarchical classification framework that fuses the information of multiple feature extractors. A feature selection is applied to improve the classification accuracy. Finally, the distributed identification is carried out with an incremental search, exploring the classes according to the probability order given by the classifier. A single parameter tunes the trade-off between identification time and accuracy. The proposal is evaluated over two NIST databases and a large synthetic database, yielding penetration rates close to the optimal values that can be reached with classification, leading to low identification times with small or no accuracy loss

    Distributed Duplicate Removal

    Get PDF
    Ziel der verteilten Duplikaterkennung ist die Identifikation von Elementen, welche mehrfach in einer großen, über mehrere Rechenknoten verteilten Datenmenge vorkommen. Sanders et al. [48] präsentieren einen verteilten Algorithmus, welcher dieses Problem in einer besonders kommunikationseffizienten Art und Weise löst. In einer Vorverarbeitungsphase werden mit Hilfe eines verteilten, platz-effizienten Bloom Filters zunächst möglichst viele distinkte Elemente als solche identifiziert und somit die Gesamtmenge der noch zu betrachtenden Elemente stark reduziert. Da hierbei jedoch auch falsch positive Ergebnisse auftreten, müssen alle als potentiell nicht distinkt erkannten Elemente in einer zweiten Phase noch einmal überprüft werden. Hierzu wird ein klassischer Hash-basierter Algorithmus zur verteilten Duplikaterkennung angewendet. Die vorliegende Arbeit ergänzt die theoretische Analyse durch eine praktische Evaluation. Wir erarbeiten hierzu eine effiziente Implementierung für Shared-Nothing Systeme. Besonders rechenintensive Schritte des Algorithmus werden zusätzlich durch Shared-Memory-Programmierung innerhalb eines Knotens parallelisiert. Die Ergebnisse unserer experimentellen Untersuchung untermauern die durch die Theorie vorhergesagten Vorteile des Algorithmus. Unsere Implementierung ist signifikant schneller als der am besten geeignete klassische Ansatz solange die Eingabedaten zu weniger als 50% aus Duplikaten bestehen. Wird der Algorithmus auf Datensätzen ausgeführt, die zu weniger als 10% aus Duplikaten bestehen, so ist das gesamte Kommunikationsvolumen zudem mehr als eine Größenordnung kleiner als das des klassischen Konkurrenten

    Автоматичне вирішення конфліктів в тексті

    Get PDF
    В даній бакалаврській дипломній роботі було реалізовано систему автоматичного вирішення конфліктів в тексті при спільному редагуванні одного і того ж документу. Попередньо проаналізувавши недоліки існуючих аналогів, при реалізації нашої системи було усунено частину з них. Програма дозволяє наочно поглянути за допомогою графу змін, де були конфлікти і як вони вирішуються.Програмний продукт був створений на мові Java 8.0, JavaScript та ReactJS.In this work for a Bachelor's Degree, a system for automatically resolving conflicts in the text during editing the same document together is realized. Having previously analyzed the shortcomings of existing analogues, some of them were eliminated during the implementation of our system. The program makes it possible to get a look clearly with the help of a graph of changes, where there were conflicts and how they are resolved. The software product was created in Java 8.0, JavaScript, and ReactJS.В даной бакалаврской дипломной работе было реализовано систему автоматического разрешения конфликтов в тексте при совместном редактировании одного и того же документа. Предварительно проанализировав недостатки существующих аналогов, при реализации нашей системы было устранено часть из них. Программа позволяет наглядно взглянуть с помощью графа изменений, где были конфликты и как они решаются. Программный продукт был создан на языке Java 8.0, JavaScript и ReactJS

    Обзор подходов к организации физического уровня в СУБД

    Get PDF
    In this paper we survey various DBMS physical design options. We will consider both vertical and horizontal partitioning, and briefly cover replication. This survey is not limited only to local systems, but also includes distributed ones. The latter adds a new interesting question — how to actually distribute data among several processing nodes. Aside from theoretical approaches we consider the practical ones, implemented in any contemporary DBMS. We cover these aspects not only from user, but also architect and programmer perspectives.В данной работе мы рассмотрели различные методы организации физического уровня СУБД: вертикальное и горизонтальное фрагментирование, а также вкратце нами затронут вопрос репликации. Указанные методы были рассмотрены не только для локальных, но и для распределенных СУБД. Последним было уделено повышенное внимание: были рассмотрены методы размещения данных на узлах распределенной системы. Кроме теоретических работ, приведены работы практического характера, в которых освещены вопросы применения вышеуказанных методов в современных коммерческих СУБД. Они были рассмотрены как с позиции пользователя, так и с позиций архитектора и программиста СУБ
    corecore