169 research outputs found

    Database migration processes and optimization using BSMS (bank staff management system)

    Get PDF
    Veritabanları temel olarak karmaşık verilere bağlı görevleri yerine getirmek ve bu görevleri gerçekleştirmek için tasarlanmış bir depolama teknolojisidir, veri bütünlüğü önemlidir. Pek çok şirket için, veritabanları kelimenin tam anlamıyla şirketin işinin elektronik bir temsilidir ve göç sırasında herhangi bir veri parçasını kaybeder ve kaybeder kabul edilemez. Verilerin taşınmasının çeşitli ticari nedenleri vardır, bunlardan bazıları arşivleme, veri depolama, yeni ortama, platformlara veya teknolojiye geçmedir. Veri tabanı geçişi, genellikle değerlendirme, veri tabanı şeması dönüşümü, veri geçişi ve işlevsel testi içeren karmaşık, çok fazlı bir işlemdir. Çevrimiçi İşlem İşleme (OLTP) veritabanları genellikle veri bütünlüğü sağlama, veri fazlalığını ortadan kaldırma ve kayıt kilitlemesini azaltma gibi görevleri yerine getirerek verimlilik için çok normalize edilir. Ancak bu veritabanı tasarım sistemi bize çok sayıda tablo sunar ve bu tabloların ve yabancı anahtar kısıtlamalarının her biri veri taşıma noktasında dikkate alınmalıdır. Ayrıca, geleneksel görevlerden farklı olarak veri taşıma işi için Kabul kriteri tamamen% 100'dür, çünkü hatalar veritabanlarında tolere edilmez ve kalite önemlidir. Bu tez, verilerin Paradox veritabanı adı verilen yavaş, verimsiz ve eski bir veritabanı platformundan, verileri başarıyla geçiren Oracle adı verilen çok daha gelişmiş bir veritabanına aktarılması sırasında ortaya çıkan zorlukları ve kaygıları göstermektedir. Herhangi bir tutarsızlık ve veri kaybı olmadan verileri hızlı bir şekilde alarak, bir sorgunun performansını iyileştirmek için indeksleme tekniği kullanılmıştır

    Augmenting data warehousing architectures with hadoop

    Get PDF
    Dissertation presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Information Systems and Technologies ManagementAs the volume of available data increases exponentially, traditional data warehouses struggle to transform this data into actionable knowledge. Data strategies that include the creation and maintenance of data warehouses have a lot to gain by incorporating technologies from the Big Data’s spectrum. Hadoop, as a transformation tool, can add a theoretical infinite dimension of data processing, feeding transformed information into traditional data warehouses that ultimately will retain their value as central components in organizations’ decision support systems. This study explores the potentialities of Hadoop as a data transformation tool in the setting of a traditional data warehouse environment. Hadoop’s execution model, which is oriented for distributed parallel processing, offers great capabilities when the amounts of data to be processed require the infrastructure to expand. Horizontal scalability, which is a key aspect in a Hadoop cluster, will allow for proportional growth in processing power as the volume of data increases. Through the use of a Hive on Tez, in a Hadoop cluster, this study transforms television viewing events, extracted from Ericsson’s Mediaroom Internet Protocol Television infrastructure, into pertinent audience metrics, like Rating, Reach and Share. These measurements are then made available in a traditional data warehouse, supported by a traditional Relational Database Management System, where they are presented through a set of reports. The main contribution of this research is a proposed augmented data warehouse architecture where the traditional ETL layer is replaced by a Hadoop cluster, running Hive on Tez, with the purpose of performing the heaviest transformations that convert raw data into actionable information. Through a typification of the SQL statements, responsible for the data transformation processes, we were able to understand that Hadoop, and its distributed processing model, delivers outstanding performance results associated with the analytical layer, namely in the aggregation of large data sets. Ultimately, we demonstrate, empirically, the performance gains that can be extracted from Hadoop, in comparison to an RDBMS, regarding speed, storage usage and scalability potential, and suggest how this can be used to evolve data warehouses into the age of Big Data

    Towards Geo Decision Support Systems for Renewable Energy Outreach

    Get PDF
    La Tierra se encuentra afectada por numerosos fenómenos tales como los desastres naturales, sobre urbanización, contaminación, etc. Todas estas actividades afectan enormemente a los recursos naturales del planeta llevando a la escasez de los mismos. Un tema especialmente relevante es el uso exhaustivo de energía fósil y su impacto negativo sobre nuestro medio ambiente. Resulta de este modo fundamental la búsqueda de nuevos recursos energéticos limpios para satisfacer nuestras necesidades y reducir la dependencia de recursos energéticos fósiles. La transformación de una infraestructura de generación de energía basada en recursos fósiles a otra basada en recursos energéticos renovables tales como eólica, solar y energía hidroeléctrica llevará a un mejor mantenimiento del medio ambiente ya que supondrá poco o ningún efecto en el calentamiento global por las emisiones, y a una reducción de la dependencia de fuentes de energía fósil. Las energías renovables son una fuente natural de energía que tiene importantes beneficios ya que proporciona un sistema de producción de energía confiable, con precios de la energía estables, puestos de trabajo especializados, y beneficios económicos y el medio ambiente. La energía solar es una de las mejores energías renovables. El sol es la fuente natural y fundamental de la existencia humana sobre la tierra y afecta a todos los procesos químicos, físicos y biológicos. Una hora de la energía del sol en la tierra es suficiente para alimentar a todo el planeta durante un año. La energía del sol o la radiación solar y su presencia geográfica determinan posibles inversiones en energía solar y las estrategias de desarrollo de las mismas. De este modo es esencial para poder proporcionar respuestas relacionadas con el "qué, quién, cuando y donde". Por ejemplo: ¿Cuál es el perfil de trabajo que mejor adapta a una posición gerencial de las energías renovables? ¿Dónde está el mejor lugar para invertir en huertos solares y/o parques eólicos? ¿En qué fecha se registra la más alta productividad? ¿Por qué este lugar no es apto para proyectos hidráulicos? ¿Por qué hay un bajón en la radiación solar en el año 2000 frente a 2012? Etc. En general, la toma de decisiones es el proceso de seleccionar la mejor opción viable de un conjunto de posibles maneras de hacer las cosas. Los Sistemas de Soporte de Decisión (del inglés Decision Support System, DSS) constituyen un ecosistema cognitivo que facilita la interacción entre los seres humanos y los datos para facilitar de forma profunda, significativa y útil la creación de soluciones efectivas en tiempo y costes. Grandes almacenamientos de Datos (Data warehousing), procesos de Extracción, Transformación y Carga (del inglés Extract Transform and Load, ETL) y la Inteligencia de Negocios (del ingles Business Intelligence, BI) son aspectos tecnológicos clave vinculados a la toma de decisiones. Además, la toma de decisiones en el contexto de la energía solar depende de Sistemas de Información Geográfica. Aunque la energía del Sol está disponible en todo el mundo, es evidente que la energía solar es más abundante cerca de los trópicos. Por ejemplo, una inversión en plantas de energía fotovoltaica en lugares cerca de los trópicos y del ecuador requerirá menos tiempo para su amortización. Dependiendo de la ubicación geográfica y las condiciones climáticas, la intensidad solar varía. Por esta razón, es importante seleccionar la ubicación adecuada que optimice la inversión teniendo en cuenta factores como la intensidad de la radiación solar, clima, tierras aptas y economía. Hay modelos como Global atlas y SimuSOLAR que dan información de idoneidad sobre la radiación solar y las ubicaciones. Sin embargo, estos modelos están restringidos a expertos, cubren áreas geográficas limitadas, no son aptos para casos de uso diferentes de los inicialmente previstos, y adolecen de falta de informes detallados e intuitivos para el público en general. El desarrollo de una cartografía extensa sobre la relación de zonas de sol y de sombra es un trabajo muy complejo que involucra diversos conceptos y retos de ingeniería, necesitando de la integración de diferentes modelos de datos, de calidad y cantidad heterogéneas, con limitaciones presupuestarias, etc. El objetivo de los trabajos de investigación desarrollados ha sido establecer la arquitectura de software para el desarrollo de Sistemas de Soporte de Decisión en el ámbito de las energías renovables en general, y de la energía solar en particular. La característica clave de este enfoque de arquitectura de software es ser capaz de proporcionar Sistemas de Soporte de Decisión que ofrezcan servicios de bajo coste ("low cost") en este contexto. Hagamos una analogía. Imagínese que usted está buscando comprar o alquilar una casa en España. Quiere analizar las características del edificio (por ejemplo dimensiones, jardín, más de una edificación en la parcela) y su entorno (por ejemplo, conexiones, servicios). Para realizar esta tarea puede utilizar los datos gratuitos proporcionados por la Oficina Virtual del Catastro de España junto con imágenes libres de un proveedor de ortofotografías (por ejemplo PNOA, Google o Bing) y datos contextuales libres procedentes de otros organismos locales, regionales y/o nacionales (por ejemplo el Ayuntamiento de Zaragoza, el Gobierno de Aragón, el proyecto Cartociudad). Si alguien integra todos estos orígenes de datos en un sistema (por ejemplo el cliente del servicio de mapas de la Infraestructura de Datos Espaciales de España, IDEE), tiene un Sistema de Soporte de Decisión "low cost" para comprar o alquilar una casa. Este trabajo de investigación tiene como objetivo el desarrollo de un enfoque de arquitectura de software que podría proporcionar un Sistema de Soporte de Decisión "low cost" cuando los consumidores necesitan tomar decisiones relacionadas con las energías renovables, en particular sistemas de energía solar, como podría ser la selección de la mejor opción para instalar un sistema solar, o decidir una inversión en una granja solar comunitaria. Una parte importante de este proceso de investigación ha consistido en el análisis sobre la idoneidad de las tecnologías vinculadas a Grandes almacenamientos de Datos y procesos de Extracción, Transformación y Carga para almacenar y procesar gran cantidad de datos históricos referentes a la energía, e Inteligencia de Negocios para la estructuración y presentación de informes. Por otro lado, ha sido necesario centrar el trabajo en modelos de negocio abierto (infraestructura de servicios web, modelos de datos 3D, técnicas de representación de datos sobre zonas de sol y sombra, y fuentes de datos) para el desarrollo económico del producto. Además, este trabajo identifica casos de uso donde los Sistemas de Soporte de Decisión deben ser el instrumento de resolución de problemas de mercado y de problemas científicos. Por lo tanto, esta tesis tiene como objetivo enfatizar y adoptar las tecnologías citadas para proponer un Sistema de Soporte de Decisión completo para un mejor uso potencial de las energías renovables que denominamos REDSS (del inglés Renewable Energy Decision Support System). El trabajo de investigación ha sido desarrollado con el objeto de encontrar respuestas a las siguientes preguntas de investigación: Preguntas relacionadas a los datos: - ¿Cómo elegir el proceso de creación de datos más adecuado para crear modelos geográficos cuyo coste económico sea razonable? Preguntas relacionadas con la tecnología: - ¿Qué limitaciones tecnológicas actuales tienen las herramientas computacionales para el cálculo de la intensidad y sombra solar? - ¿Cómo se puede adaptar conceptos como Grandes almacenamientos de Datos y la Inteligencia de Negocios en el campo de las energías renovables? - ¿Cómo estructurar y organizar datos relacionados con la intensidad solar y la sombra? - ¿Cuáles son las diferencias significativas entre el método propuesto y otros servicios globales existentes? Preguntas relacionadas con casos de uso: - ¿Cuáles son los casos de uso de REDSS? - ¿Cuáles son los beneficios de REDSS para expertos y público en general? Para darle una forma concreta a la contribución y el enfoque propuesto, se ha desarrollado un prototipo denominado Energy2People basado en principios de Inteligencia de Negocio que no sólo proporciona datos de localización avanzada sino que es una base sobre la que para desarrollar futuros productos comerciales. En su conformación actual, esta herramienta ayuda a descubrir y representar las relaciones de datos clave en el sector de las energías renovables y, permite descubrir al público en general relaciones entre los datos en casos donde no era evidente. Esencialmente, el enfoque propuesto conduce a un aumento en el rendimiento de gestión y visualización de datos. Las principales aportaciones de esta tesis pueden resumirse como siguen: - En primer lugar, esta tesis hace una revisión de varios modelos de sol-sombra de código abierto y cerrado para identificar el alcance de la necesidad de modelos de decisión y de su soporte efectivo. Además, proporciona información detallada sobre fuentes de información gratuita relacionada con datos de radiación solar. - En segundo lugar, se plantea un armazón conceptual para el desarrollo de modelos geográficos de bajo coste. Como ejemplo de la aplicación de esta aproximación se ha desarrollado un modelo de bajo coste de ciudad virtual 3D utilizando datos catastrales públicamente disponibles vía servicios Web. - En tercer lugar, este trabajo propone el uso de REDSS al problema de la toma de decisiones en el campo de la energía solar. Este modelo también cuenta con otros puntos distinguibles como los enfoques de co-creación y Mix-and-match. - En cuarto lugar, esta tesis identifica varios escenarios de aplicaciones reales y varios tipos de actores que deberían salir beneficiados por la aplicación de esta estrategia. - Por último, esta tesis presenta el prototipo "Enery2People" desarrollado para explorar datos de localización de la radiación solar y eventos temporales que sirve como ejemplo práctico de la aproximación planteada en esta tesis. Para hacer más claro el potencial del enfoque propuesto, este prototipo es comparado con otros Atlas Internacionales de la energía renovable

    Sensor web geoprocessing on the grid

    Get PDF
    Recent standardisation initiatives in the fields of grid computing and geospatial sensor middleware provide an exciting opportunity for the composition of large scale geospatial monitoring and prediction systems from existing components. Sensor middleware standards are paving the way for the emerging sensor web which is envisioned to make millions of geospatial sensors and their data publicly accessible by providing discovery, task and query functionality over the internet. In a similar fashion, concurrent development is taking place in the field of grid computing whereby the virtualisation of computational and data storage resources using middleware abstraction provides a framework to share computing resources. Sensor web and grid computing share a common vision of world-wide connectivity and in their current form they are both realised using web services as the underlying technological framework. The integration of sensor web and grid computing middleware using open standards is expected to facilitate interoperability and scalability in near real-time geoprocessing systems. The aim of this thesis is to develop an appropriate conceptual and practical framework in which open standards in grid computing, sensor web and geospatial web services can be combined as a technological basis for the monitoring and prediction of geospatial phenomena in the earth systems domain, to facilitate real-time decision support. The primary topic of interest is how real-time sensor data can be processed on a grid computing architecture. This is addressed by creating a simple typology of real-time geoprocessing operations with respect to grid computing architectures. A geoprocessing system exemplar of each geoprocessing operation in the typology is implemented using contemporary tools and techniques which provides a basis from which to validate the standards frameworks and highlight issues of scalability and interoperability. It was found that it is possible to combine standardised web services from each of these aforementioned domains despite issues of interoperability resulting from differences in web service style and security between specifications. A novel integration method for the continuous processing of a sensor observation stream is suggested in which a perpetual processing job is submitted as a single continuous compute job. Although this method was found to be successful two key challenges remain; a mechanism for consistently scheduling real-time jobs within an acceptable time-frame must be devised and the tradeoff between efficient grid resource utilisation and processing latency must be balanced. The lack of actual implementations of distributed geoprocessing systems built using sensor web and grid computing has hindered the development of standards, tools and frameworks in this area. This work provides a contribution to the small number of existing implementations in this field by identifying potential workflow bottlenecks in such systems and gaps in the existing specifications. Furthermore it sets out a typology of real-time geoprocessing operations that are anticipated to facilitate the development of real-time geoprocessing software.EThOS - Electronic Theses Online ServiceEngineering and Physical Sciences Research Council (EPSRC) : School of Civil Engineering & Geosciences, Newcastle UniversityGBUnited Kingdo

    The case of Ferbritas Cadastre Information System

    Get PDF
    The processes of mobilization of land for infrastructures of public and private domain are developed according to proper legal frameworks and systematically confronted with the impoverished national situation as regards the cadastral identification and regularization, which leads to big inefficiencies, sometimes with very negative impact to the overall effectiveness. This project report describes Ferbritas Cadastre Information System (FBSIC) project and tools, which in conjunction with other applications, allow managing the entire life-cycle of Land Acquisition and Cadastre, including support to field activities with the integration of information collected in the field, the development of multi-criteria analysis information, monitoring all information in the exploration stage, and the automated generation of outputs. The benefits are evident at the level of operational efficiency, including tools that enable process integration and standardization of procedures, facilitate analysis and quality control and maximize performance in the acquisition, maintenance and management of registration information and expropriation (expropriation projects). Therefore, the implemented system achieves levels of robustness, comprehensiveness, openness, scalability and reliability suitable for a structural platform. The resultant solution, FBSIC, is a fit-for-purpose cadastre information system rooted in the field of railway infrastructures. FBSIC integrating nature of allows: to accomplish present needs and scale to meet future services; to collect, maintain, manage and share all information in one common platform, and transform it into knowledge; to relate with other platforms; to increase accuracy and productivity of business processes related with land property management

    Energy4People: Sistema de soporte para la toma de decisiones en el dominio de las energías renovables orientado al usuario no experto

    Get PDF
    Este proyecto propone un sistema de soporte a la toma de decisiones, en el dominio de las energías renovables y orientado a usuarios no expertos. El sistema utiliza de manera transparente para el usuario técnicas de BI como la integración de datos, que ha sido aplicada a datos procedentes de satélites de la NASA, estructuras multidimensionales como cubos OLAP y modelos de datos orientados al análisis como el esquema de estrella de un data warehouse. Con este sistema, por ejemplo, un usuario no experto puede visualizar y entender dónde es mejor realizar una inversión en paneles solares

    On indexing highly dynamic multidimensional datasets for interactive analytics

    Get PDF
    Orientador : Prof. Dr. Luis Carlos Erpen de BonaTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 15/04/2016Inclui referências : f. 77-91Área de concentração : Ciência da computaçãoResumo: Indexação de dados multidimensionais tem sido extensivamente pesquisada nas últimas décadas. Neste trabalho, um novo workload OLAP identificado no Facebook é apresentado, caracterizado por (a) alta dinamicidade e dimensionalidade, (b) escala e (c) interatividade e simplicidade de consultas, inadequado para os SGBDs OLAP e técnicas de indexação de dados multidimensionais atuais. Baseado nesse caso de uso, uma nova estratégia de indexação e organização de dados multidimensionais para SGBDs em memória chamada Granular Partitioning é proposta. Essa técnica extende a visão tradicional de partitionamento em banco de dados, particionando por intervalo todas as dimensões do conjunto de dados e formando pequenos blocos que armazenam dados de forma não coordenada e esparsa. Desta forma, é possível atingir altas taxas de ingestão de dados sem manter estrutura auxiliar alguma de indexação. Este trabalho também descreve como um SGBD OLAP capaz de suportar um modelo de dados composto por cubos, dimensões e métricas, além de operações como roll-ups, drill-downs e slice and dice (filtros) eficientes pode ser construído com base nessa nova técnica de organização de dados. Com objetivo de validar experimentalmente a técnica apresentada, este trabalho apresenta o Cubrick, um novo SGBD OLAP em memória distribuída e otimizada para a execução de consultas analíticas baseado em Granular Partitioning, escritas desde a primeira linha de código para este trabalho. Finalmente, os resultados de uma avaliação experimental extensiva contendo conjuntos de dados e consultas coletadas de projetos pilotos que utilizam Cubrick é apresentada; em seguida, é mostrado que a escala desejada pode ser alcançada caso os dados sejam organizados de acordo com o Granular Partitioning e o projeto seja focado em simplicidade, ingerindo milhões de registros por segundo continuamente de uxos de dados em tempo real, e concorrentemente executando consultas com latência inferior a 1 segundo.Abstrct: Indexing multidimensional data has been an active focus of research in the last few decades. In this work, we present a new type of OLAP workload found at Facebook and characterized by (a) high dynamicity and dimensionality, (b) scale and (c) interactivity and simplicity of queries, that is unsuited for most current OLAP DBMSs and multidimensional indexing techniques. To address this use case, we propose a novel multidimensional data organization and indexing strategy for in-memory DBMSs called Granular Partitioning. This technique extends the traditional view of database partitioning by range partitioning every dimension of the dataset and organizing the data within small containers in an unordered and sparse fashion, in such a way to provide high ingestion rates and indexed access through every dimension without maintaining any auxiliary data structures. We also describe how an OLAP DBMS able to support a multidimensional data model composed of cubes, dimensions and metrics and operations such as roll-up, drill-down as well as efficient slice and dice filtering) can be built on top of this new data organization technique. In order to experimentally validate the described technique we present Cubrick, a new in-memory distributed OLAP DBMS for interactive analytics based on Granular Partitioning we have written from the ground up at Facebook. Finally, we present results from a thorough experimental evaluation that leveraged datasets and queries collected from a few pilot Cubrick deployments. We show that by properly organizing the dataset according to Granular Partitioning and focusing the design on simplicity, we are able to achieve the target scale and store tens of terabytes of in-memory data, continuously ingest millions of records per second from realtime data streams and still execute sub-second queries
    corecore