550 research outputs found

    Flexible Integration and Efficient Analysis of Multidimensional Datasets from the Web

    Get PDF
    If numeric data from the Web are brought together, natural scientists can compare climate measurements with estimations, financial analysts can evaluate companies based on balance sheets and daily stock market values, and citizens can explore the GDP per capita from several data sources. However, heterogeneities and size of data remain a problem. This work presents methods to query a uniform view - the Global Cube - of available datasets from the Web and builds on Linked Data query approaches

    Flexible Integration and Efficient Analysis of Multidimensional Datasets from the Web

    Get PDF
    If numeric data from the Web are brought together, natural scientists can compare climate measurements with estimations, financial analysts can evaluate companies based on balance sheets and daily stock market values, and citizens can explore the GDP per capita from several data sources. However, heterogeneities and size of data remain a problem. This work presents methods to query a uniform view - the Global Cube - of available datasets from the Web and builds on Linked Data query approaches

    Building a Data Warehouse for Twitter Stream Exploration

    Full text link
    In the recent year Twitter has evolved into an extremely popular social network and has revolutionized the ways of interacting and exchanging information on the Internet. By making its public stream available through a set of APIs Twitter has triggered a wave of research initiatives aimed at analysis and knowledge discovery from the data about its users and their messaging activities. While most of the projects and tools are tailored towards solving specific tasks, we pursue a goal of providing an application in dependent and universal analytical platform for supporting any kind of analysis and knowledge discovery. We employ the well established data warehousing technology with its underlying multidimensional data model, ETL routine for loading and consolidating data from different sources, OLAP functionality for exploring the data and data mining tools for more sophisticated analysis. In this work we describe the process of transforming the original stream into a set of related multidimensional cubes and demonstrate how the resulting data warehouse can be used for solving a variety of analytical tasks. We expect our proposed approach to be applicable for analyzing the data of other social networks as well

    A quality-aware spatial data warehouse for querying hydroecological data

    Get PDF
    International audienceAddressing data quality issues in information systems remains a challenging task. Many approaches only tackle this issue at the extract, transform and load steps. Here we define a comprehensive method to gain greater insight into data quality characteristics within data warehouse. Our novel architecture was implemented for an hydroecological case study where massive French watercourse sampling data are collected. The method models and makes effective use of spatial, thematic and temporal accuracy, consistency and completeness for multidimensional data in order to offer analysts a âdata qualityâ oriented framework. The results obtained in experiments carried out on the Saône River dataset demonstrated the relevance of our approac

    Development and implementation of air quality data mart for Ontario, Canada : a case study of air quality in Ontario using OLAP tool

    Get PDF
    This thesis describes the development and implementation of Air Quality Data Mart for Ontario Canada using Online Analytical Processing (OLAP) tool. It is followed by a case study which presents comparisons of air quality between the urban and rural areas, peak and non-peak hours, working days and weekends for various cities in Ontario. The purpose of this study is to develop a user friendly tool for historical air quality data and evaluate the functionality of the tool by extracting the data across several dimensions. The data for air quality is available on the Ontario Ministry of Environment website for 43 monitoring stations across Ontario. This data is in the form of static Hyper Text Markup Language (HTML) pages which cannot be used for analytical purposes. Air quality data mart was developed using open source OLAP. The database was designed using multidimensional modeling approach. OLAP server “Mondrian” was used as the presentation server whereas “Openi” client was used as an end user tool for this study. The different functions available in this data mart are: rollup, drill down and slice and dice the data across several dimensions such as time, location and pollutant. The most important conclusion of this thesis is the successful implementation of an air quality data mart with the possibility to extract accurate historical air quality data. The data in the form of a data mart provides numerous advantages, where it can be analyzed according to the required analytical perspective for a given city/cities. The only drawback of having data in the form of a data mart is that, if the data is drilled down to the finest precision i.e. to the hour (depending on the number of dimensions selected) the resulting chart will be very crowded but the generated report will present a complete overview of the analysis.Popular summary: Air quality data mart built in this study consists of historical air pollutant data for cities across Ontario. This data is available at the Ontario ministry of environment website from 2000-2007 for most of the cities. There is missing data for some of the cities and some pollutants as well. It is because the monitoring of those specific pollutants did not commence in or before 2000. This data mart facilitates the user to extract historical data. The user does not need to know query language skills. With user friendly interface data analysis can be performed using drag and drop feature. The statistical functions implemented in this data mart are AVG, MIN and MAX. The database is designed in a form where it is possible to extract data for a specific time period. This data can be further filtered based on location and a given pollutant. The query output is in the form of a chart and a table. It is also possible to save the analysis which can be accessed again in future for referential purposes. The air quality in Ontario was compared using parameters like weekday – weekend effect, peak hour – off peak hour, urban and rural areas etc. Most of these parameters were used for the cities of Toronto and Ottawa. The results generated by the data mart showed that the pollutant concentration levels in both cities surpassed the recommended guidelines, but there were less exceedance days monitored in Ottawa compared to Toronto. This data mart lacks the component of visual maps. It would be interesting if this data mart had a choropleth map associated with the pollutant measurements. This would enable the user to visually comprehend the air quality data. However, if there are limitations in air quality data mart for Ontario, Canada at this point it is an indicator that spatial maps with spatial statistics can be implemented in future

    Towards Geo Decision Support Systems for Renewable Energy Outreach

    Get PDF
    La Tierra se encuentra afectada por numerosos fenómenos tales como los desastres naturales, sobre urbanización, contaminación, etc. Todas estas actividades afectan enormemente a los recursos naturales del planeta llevando a la escasez de los mismos. Un tema especialmente relevante es el uso exhaustivo de energía fósil y su impacto negativo sobre nuestro medio ambiente. Resulta de este modo fundamental la búsqueda de nuevos recursos energéticos limpios para satisfacer nuestras necesidades y reducir la dependencia de recursos energéticos fósiles. La transformación de una infraestructura de generación de energía basada en recursos fósiles a otra basada en recursos energéticos renovables tales como eólica, solar y energía hidroeléctrica llevará a un mejor mantenimiento del medio ambiente ya que supondrá poco o ningún efecto en el calentamiento global por las emisiones, y a una reducción de la dependencia de fuentes de energía fósil. Las energías renovables son una fuente natural de energía que tiene importantes beneficios ya que proporciona un sistema de producción de energía confiable, con precios de la energía estables, puestos de trabajo especializados, y beneficios económicos y el medio ambiente. La energía solar es una de las mejores energías renovables. El sol es la fuente natural y fundamental de la existencia humana sobre la tierra y afecta a todos los procesos químicos, físicos y biológicos. Una hora de la energía del sol en la tierra es suficiente para alimentar a todo el planeta durante un año. La energía del sol o la radiación solar y su presencia geográfica determinan posibles inversiones en energía solar y las estrategias de desarrollo de las mismas. De este modo es esencial para poder proporcionar respuestas relacionadas con el "qué, quién, cuando y donde". Por ejemplo: ¿Cuál es el perfil de trabajo que mejor adapta a una posición gerencial de las energías renovables? ¿Dónde está el mejor lugar para invertir en huertos solares y/o parques eólicos? ¿En qué fecha se registra la más alta productividad? ¿Por qué este lugar no es apto para proyectos hidráulicos? ¿Por qué hay un bajón en la radiación solar en el año 2000 frente a 2012? Etc. En general, la toma de decisiones es el proceso de seleccionar la mejor opción viable de un conjunto de posibles maneras de hacer las cosas. Los Sistemas de Soporte de Decisión (del inglés Decision Support System, DSS) constituyen un ecosistema cognitivo que facilita la interacción entre los seres humanos y los datos para facilitar de forma profunda, significativa y útil la creación de soluciones efectivas en tiempo y costes. Grandes almacenamientos de Datos (Data warehousing), procesos de Extracción, Transformación y Carga (del inglés Extract Transform and Load, ETL) y la Inteligencia de Negocios (del ingles Business Intelligence, BI) son aspectos tecnológicos clave vinculados a la toma de decisiones. Además, la toma de decisiones en el contexto de la energía solar depende de Sistemas de Información Geográfica. Aunque la energía del Sol está disponible en todo el mundo, es evidente que la energía solar es más abundante cerca de los trópicos. Por ejemplo, una inversión en plantas de energía fotovoltaica en lugares cerca de los trópicos y del ecuador requerirá menos tiempo para su amortización. Dependiendo de la ubicación geográfica y las condiciones climáticas, la intensidad solar varía. Por esta razón, es importante seleccionar la ubicación adecuada que optimice la inversión teniendo en cuenta factores como la intensidad de la radiación solar, clima, tierras aptas y economía. Hay modelos como Global atlas y SimuSOLAR que dan información de idoneidad sobre la radiación solar y las ubicaciones. Sin embargo, estos modelos están restringidos a expertos, cubren áreas geográficas limitadas, no son aptos para casos de uso diferentes de los inicialmente previstos, y adolecen de falta de informes detallados e intuitivos para el público en general. El desarrollo de una cartografía extensa sobre la relación de zonas de sol y de sombra es un trabajo muy complejo que involucra diversos conceptos y retos de ingeniería, necesitando de la integración de diferentes modelos de datos, de calidad y cantidad heterogéneas, con limitaciones presupuestarias, etc. El objetivo de los trabajos de investigación desarrollados ha sido establecer la arquitectura de software para el desarrollo de Sistemas de Soporte de Decisión en el ámbito de las energías renovables en general, y de la energía solar en particular. La característica clave de este enfoque de arquitectura de software es ser capaz de proporcionar Sistemas de Soporte de Decisión que ofrezcan servicios de bajo coste ("low cost") en este contexto. Hagamos una analogía. Imagínese que usted está buscando comprar o alquilar una casa en España. Quiere analizar las características del edificio (por ejemplo dimensiones, jardín, más de una edificación en la parcela) y su entorno (por ejemplo, conexiones, servicios). Para realizar esta tarea puede utilizar los datos gratuitos proporcionados por la Oficina Virtual del Catastro de España junto con imágenes libres de un proveedor de ortofotografías (por ejemplo PNOA, Google o Bing) y datos contextuales libres procedentes de otros organismos locales, regionales y/o nacionales (por ejemplo el Ayuntamiento de Zaragoza, el Gobierno de Aragón, el proyecto Cartociudad). Si alguien integra todos estos orígenes de datos en un sistema (por ejemplo el cliente del servicio de mapas de la Infraestructura de Datos Espaciales de España, IDEE), tiene un Sistema de Soporte de Decisión "low cost" para comprar o alquilar una casa. Este trabajo de investigación tiene como objetivo el desarrollo de un enfoque de arquitectura de software que podría proporcionar un Sistema de Soporte de Decisión "low cost" cuando los consumidores necesitan tomar decisiones relacionadas con las energías renovables, en particular sistemas de energía solar, como podría ser la selección de la mejor opción para instalar un sistema solar, o decidir una inversión en una granja solar comunitaria. Una parte importante de este proceso de investigación ha consistido en el análisis sobre la idoneidad de las tecnologías vinculadas a Grandes almacenamientos de Datos y procesos de Extracción, Transformación y Carga para almacenar y procesar gran cantidad de datos históricos referentes a la energía, e Inteligencia de Negocios para la estructuración y presentación de informes. Por otro lado, ha sido necesario centrar el trabajo en modelos de negocio abierto (infraestructura de servicios web, modelos de datos 3D, técnicas de representación de datos sobre zonas de sol y sombra, y fuentes de datos) para el desarrollo económico del producto. Además, este trabajo identifica casos de uso donde los Sistemas de Soporte de Decisión deben ser el instrumento de resolución de problemas de mercado y de problemas científicos. Por lo tanto, esta tesis tiene como objetivo enfatizar y adoptar las tecnologías citadas para proponer un Sistema de Soporte de Decisión completo para un mejor uso potencial de las energías renovables que denominamos REDSS (del inglés Renewable Energy Decision Support System). El trabajo de investigación ha sido desarrollado con el objeto de encontrar respuestas a las siguientes preguntas de investigación: Preguntas relacionadas a los datos: - ¿Cómo elegir el proceso de creación de datos más adecuado para crear modelos geográficos cuyo coste económico sea razonable? Preguntas relacionadas con la tecnología: - ¿Qué limitaciones tecnológicas actuales tienen las herramientas computacionales para el cálculo de la intensidad y sombra solar? - ¿Cómo se puede adaptar conceptos como Grandes almacenamientos de Datos y la Inteligencia de Negocios en el campo de las energías renovables? - ¿Cómo estructurar y organizar datos relacionados con la intensidad solar y la sombra? - ¿Cuáles son las diferencias significativas entre el método propuesto y otros servicios globales existentes? Preguntas relacionadas con casos de uso: - ¿Cuáles son los casos de uso de REDSS? - ¿Cuáles son los beneficios de REDSS para expertos y público en general? Para darle una forma concreta a la contribución y el enfoque propuesto, se ha desarrollado un prototipo denominado Energy2People basado en principios de Inteligencia de Negocio que no sólo proporciona datos de localización avanzada sino que es una base sobre la que para desarrollar futuros productos comerciales. En su conformación actual, esta herramienta ayuda a descubrir y representar las relaciones de datos clave en el sector de las energías renovables y, permite descubrir al público en general relaciones entre los datos en casos donde no era evidente. Esencialmente, el enfoque propuesto conduce a un aumento en el rendimiento de gestión y visualización de datos. Las principales aportaciones de esta tesis pueden resumirse como siguen: - En primer lugar, esta tesis hace una revisión de varios modelos de sol-sombra de código abierto y cerrado para identificar el alcance de la necesidad de modelos de decisión y de su soporte efectivo. Además, proporciona información detallada sobre fuentes de información gratuita relacionada con datos de radiación solar. - En segundo lugar, se plantea un armazón conceptual para el desarrollo de modelos geográficos de bajo coste. Como ejemplo de la aplicación de esta aproximación se ha desarrollado un modelo de bajo coste de ciudad virtual 3D utilizando datos catastrales públicamente disponibles vía servicios Web. - En tercer lugar, este trabajo propone el uso de REDSS al problema de la toma de decisiones en el campo de la energía solar. Este modelo también cuenta con otros puntos distinguibles como los enfoques de co-creación y Mix-and-match. - En cuarto lugar, esta tesis identifica varios escenarios de aplicaciones reales y varios tipos de actores que deberían salir beneficiados por la aplicación de esta estrategia. - Por último, esta tesis presenta el prototipo "Enery2People" desarrollado para explorar datos de localización de la radiación solar y eventos temporales que sirve como ejemplo práctico de la aproximación planteada en esta tesis. Para hacer más claro el potencial del enfoque propuesto, este prototipo es comparado con otros Atlas Internacionales de la energía renovable

    An Open Source BI Approach: Concept Proof Tracking Fleet

    Get PDF
    É possível assistir nos dias de hoje, a um processo tecnológico evolutivo acentuado por toda a parte do globo. No caso das empresas, quer as pequenas, médias ou de grandes dimensões, estão cada vez mais dependentes dos sistemas informatizados para realizar os seus processos de negócio, e consequentemente à geração de informação referente aos negócios e onde, muitas das vezes, os dados não têm qualquer relacionamento entre si. A maioria dos sistemas convencionais informáticos não são projetados para gerir e armazenar informações estratégicas, impossibilitando assim que esta sirva de apoio como recurso estratégico. Portanto, as decisões são tomadas com base na experiência dos administradores, quando poderiam serem baseadas em factos históricos armazenados pelos diversos sistemas. Genericamente, as organizações possuem muitos dados, mas na maioria dos casos extraem pouca informação, o que é um problema em termos de mercados competitivos. Como as organizações procuram evoluir e superar a concorrência nas tomadas de decisão, surge neste contexto o termo Business Intelligence(BI). A GisGeo Information Systems é uma empresa que desenvolve software baseado em SIG (sistemas de informação geográfica) recorrendo a uma filosofia de ferramentas open-source. O seu principal produto baseia-se na localização geográfica dos vários tipos de viaturas, na recolha de dados, e consequentemente a sua análise (quilómetros percorridos, duração de uma viagem entre dois pontos definidos, consumo de combustível, etc.). Neste âmbito surge o tema deste projeto que tem objetivo de dar uma perspetiva diferente aos dados existentes, cruzando os conceitos BI com o sistema implementado na empresa de acordo com a sua filosofia. Neste projeto são abordados alguns dos conceitos mais importantes adjacentes a BI como, por exemplo, modelo dimensional, data Warehouse, o processo ETL e OLAP, seguindo a metodologia de Ralph Kimball. São também estudadas algumas das principais ferramentas open-source existentes no mercado, assim como quais as suas vantagens/desvantagens relativamente entre elas. Em conclusão, é então apresentada a solução desenvolvida de acordo com os critérios enumerados pela empresa como prova de conceito da aplicabilidade da área Business Intelligence ao ramo de Sistemas de informação Geográfica (SIG), recorrendo a uma ferramenta open-source que suporte visualização dos dados através de dashboards.Nowadays it is possible to watch a sharp evolutionary process technology throughout the globe. For businesses, whether small, medium or large, are increasingly dependent on information systems to conduct their business processes, and hence the generation of information regarding business and where often the data does not have any relationship therewith. Most conventional computer systems are not designed to manage and store strategic information, thus making it impossible to support this as a strategic resource. Therefore, decisions are made based on the experience of the managers, when they could be based on historical facts stored by different systems. Generally, organizations have a lot of data, but in most cases draw little information, which is a problem in terms of competitive markets. As organizations seek to evolve and outperform the competition in decision-making, it arises the term Business Intelligence (BI in this context). The GisGeo Information Systems is IT Company which develops its own software based on GIS (Geographic information systems) using the philosophy of open-source. Its main product is based on the geographical location of various types of vehicles, collecting data, and consequently its analysis (kilometres travelled, duration of a trip between two set points, fuel consumption, etc.). The theme of this project arises in this context, which has aimed to give a different perspective to the existing data, crossing the BI concepts with the system implemented in the company according to its philosophy. In this project the adjacent BI concepts such as dimensional model, data warehouse, ET Land OLAP process, following the methodology of Ralph Kimball are generally addressed. Some of the main open-source tools are also studied on the market, as well as their advantages/disadvantages in relation to one another. In conclusion, a solution developed in accordance with the criteria listed by the company, is presented as proof of concept of the applicability of the Business Intelligence at the branch GIS, drawing on an open-source support data visualization tool through dashboards
    corecore