161 research outputs found

    Flexible Integration and Efficient Analysis of Multidimensional Datasets from the Web

    Get PDF
    If numeric data from the Web are brought together, natural scientists can compare climate measurements with estimations, financial analysts can evaluate companies based on balance sheets and daily stock market values, and citizens can explore the GDP per capita from several data sources. However, heterogeneities and size of data remain a problem. This work presents methods to query a uniform view - the Global Cube - of available datasets from the Web and builds on Linked Data query approaches

    BUILDING DSS USING KNOWLEDGE DISCOVERY IN DATABASE APPLIED TO ADMISSION & REGISTRATION FUNCTIONS

    Get PDF
    This research investigates the practical issues surrounding the development and implementation of Decision Support Systems (DSS). The research describes the traditional development approaches analyzing their drawbacks and introduces a new DSS development methodology. The proposed DSS methodology is based upon four modules; needs' analysis, data warehouse (DW), knowledge discovery in database (KDD), and a DSS module. The proposed DSS methodology is applied to and evaluated using the admission and registration functions in Egyptian Universities. The research investigates the organizational requirements that are required to underpin these functions in Egyptian Universities. These requirements have been identified following an in-depth survey of the recruitment process in the Egyptian Universities. This survey employed a multi-part admission and registration DSS questionnaire (ARDSSQ) to identify the required data sources together with the likely users and their information needs. The questionnaire was sent to senior managers within the Egyptian Universities (both private and government) with responsibility for student recruitment, in particular admission and registration. Further, access to a large database has allowed the evaluation of the practical suitability of using a data warehouse structure and knowledge management tools within the decision making framework. 1600 students' records have been analyzed to explore the KDD process, and another 2000 records have been used to build and test the data mining techniques within the KDD process. Moreover, the research has analyzed the key characteristics of data warehouses and explored the advantages and disadvantages of such data structures. This evaluation has been used to build a data warehouse for the Egyptian Universities that handle their admission and registration related archival data. The decision makers' potential benefits of the data warehouse within the student recruitment process will be explored. The design of the proposed admission and registration DSS (ARDSS) will be developed and tested using Cool: Gen (5.0) CASE tools by Computer Associates (CA), connected to a MSSQL Server (6.5), in a Windows NT (4.0) environment. Crystal Reports (4.6) by Seagate will be used as a report generation tool. CLUST AN Graphics (5.0) by CLUST AN software will also be used as a clustering package. Finally, the contribution of this research is found in the following areas: A new DSS development methodology; The development and validation of a new research questionnaire (i.e. ARDSSQ); The development of the admission and registration data warehouse; The evaluation and use of cluster analysis proximities and techniques in the KDD process to find knowledge in the students' records; And the development of the ARDSS software that encompasses the advantages of the KDD and DW and submitting these advantages to the senior admission and registration managers in the Egyptian Universities. The ARDSS software could be adjusted for usage in different countries for the same purpose, it is also scalable to handle new decision situations and can be integrated with other systems

    Ontology based data warehousing for mining of heterogeneous and multidimensional data sources

    Get PDF
    Heterogeneous and multidimensional big-data sources are virtually prevalent in all business environments. System and data analysts are unable to fast-track and access big-data sources. A robust and versatile data warehousing system is developed, integrating domain ontologies from multidimensional data sources. For example, petroleum digital ecosystems and digital oil field solutions, derived from big-data petroleum (information) systems, are in increasing demand in multibillion dollar resource businesses worldwide. This work is recognized by Industrial Electronic Society of IEEE and appeared in more than 50 international conference proceedings and journals

    Yavaa: supporting data workflows from discovery to visualization

    Get PDF
    Recent years have witness an increasing number of data silos being opened up both within organizations and to the general public: Scientists publish their raw data as supplements to articles or even standalone artifacts to enable others to verify and extend their work. Governments pass laws to open up formerly protected data treasures to improve accountability and transparency as well as to enable new business ideas based on this public good. Even companies share structured information about their products and services to advertise their use and thus increase revenue. Exploiting this wealth of information holds many challenges for users, though. Oftentimes data is provided as tables whose sheer endless rows of daunting numbers are barely accessible. InfoVis can mitigate this gap. However, offered visualization options are generally very limited and next to no support is given in applying any of them. The same holds true for data wrangling. Only very few options to adjust the data to the current needs and barely any protection are in place to prevent even the most obvious mistakes. When it comes to data from multiple providers, the situation gets even bleaker. Only recently tools emerged to search for datasets across institutional borders reasonably. Easy-to-use ways to combine these datasets are still missing, though. Finally, results generally lack proper documentation of their provenance. So even the most compelling visualizations can be called into question when their coming about remains unclear. The foundations for a vivid exchange and exploitation of open data are set, but the barrier of entry remains relatively high, especially for non-expert users. This thesis aims to lower that barrier by providing tools and assistance, reducing the amount of prior experience and skills required. It covers the whole workflow ranging from identifying proper datasets, over possible transformations, up until the export of the result in the form of suitable visualizations

    Flexible Integration and Efficient Analysis of Multidimensional Datasets from the Web

    Get PDF
    If numeric data from the Web are brought together, natural scientists can compare climate measurements with estimations, financial analysts can evaluate companies based on balance sheets and daily stock market values, and citizens can explore the GDP per capita from several data sources. However, heterogeneities and size of data remain a problem. This work presents methods to query a uniform view - the Global Cube - of available datasets from the Web and builds on Linked Data query approaches

    CRIS-IR 2006

    Get PDF
    The recognition of entities and their relationships in document collections is an important step towards the discovery of latent knowledge as well as to support knowledge management applications. The challenge lies on how to extract and correlate entities, aiming to answer key knowledge management questions, such as; who works with whom, on which projects, with which customers and on what research areas. The present work proposes a knowledge mining approach supported by information retrieval and text mining tasks in which its core is based on the correlation of textual elements through the LRD (Latent Relation Discovery) method. Our experiments show that LRD outperform better than other correlation methods. Also, we present an application in order to demonstrate the approach over knowledge management scenarios.Fundação para a Ciência e a Tecnologia (FCT) Denmark's Electronic Research Librar

    Towards Geo Decision Support Systems for Renewable Energy Outreach

    Get PDF
    La Tierra se encuentra afectada por numerosos fenómenos tales como los desastres naturales, sobre urbanización, contaminación, etc. Todas estas actividades afectan enormemente a los recursos naturales del planeta llevando a la escasez de los mismos. Un tema especialmente relevante es el uso exhaustivo de energía fósil y su impacto negativo sobre nuestro medio ambiente. Resulta de este modo fundamental la búsqueda de nuevos recursos energéticos limpios para satisfacer nuestras necesidades y reducir la dependencia de recursos energéticos fósiles. La transformación de una infraestructura de generación de energía basada en recursos fósiles a otra basada en recursos energéticos renovables tales como eólica, solar y energía hidroeléctrica llevará a un mejor mantenimiento del medio ambiente ya que supondrá poco o ningún efecto en el calentamiento global por las emisiones, y a una reducción de la dependencia de fuentes de energía fósil. Las energías renovables son una fuente natural de energía que tiene importantes beneficios ya que proporciona un sistema de producción de energía confiable, con precios de la energía estables, puestos de trabajo especializados, y beneficios económicos y el medio ambiente. La energía solar es una de las mejores energías renovables. El sol es la fuente natural y fundamental de la existencia humana sobre la tierra y afecta a todos los procesos químicos, físicos y biológicos. Una hora de la energía del sol en la tierra es suficiente para alimentar a todo el planeta durante un año. La energía del sol o la radiación solar y su presencia geográfica determinan posibles inversiones en energía solar y las estrategias de desarrollo de las mismas. De este modo es esencial para poder proporcionar respuestas relacionadas con el "qué, quién, cuando y donde". Por ejemplo: ¿Cuál es el perfil de trabajo que mejor adapta a una posición gerencial de las energías renovables? ¿Dónde está el mejor lugar para invertir en huertos solares y/o parques eólicos? ¿En qué fecha se registra la más alta productividad? ¿Por qué este lugar no es apto para proyectos hidráulicos? ¿Por qué hay un bajón en la radiación solar en el año 2000 frente a 2012? Etc. En general, la toma de decisiones es el proceso de seleccionar la mejor opción viable de un conjunto de posibles maneras de hacer las cosas. Los Sistemas de Soporte de Decisión (del inglés Decision Support System, DSS) constituyen un ecosistema cognitivo que facilita la interacción entre los seres humanos y los datos para facilitar de forma profunda, significativa y útil la creación de soluciones efectivas en tiempo y costes. Grandes almacenamientos de Datos (Data warehousing), procesos de Extracción, Transformación y Carga (del inglés Extract Transform and Load, ETL) y la Inteligencia de Negocios (del ingles Business Intelligence, BI) son aspectos tecnológicos clave vinculados a la toma de decisiones. Además, la toma de decisiones en el contexto de la energía solar depende de Sistemas de Información Geográfica. Aunque la energía del Sol está disponible en todo el mundo, es evidente que la energía solar es más abundante cerca de los trópicos. Por ejemplo, una inversión en plantas de energía fotovoltaica en lugares cerca de los trópicos y del ecuador requerirá menos tiempo para su amortización. Dependiendo de la ubicación geográfica y las condiciones climáticas, la intensidad solar varía. Por esta razón, es importante seleccionar la ubicación adecuada que optimice la inversión teniendo en cuenta factores como la intensidad de la radiación solar, clima, tierras aptas y economía. Hay modelos como Global atlas y SimuSOLAR que dan información de idoneidad sobre la radiación solar y las ubicaciones. Sin embargo, estos modelos están restringidos a expertos, cubren áreas geográficas limitadas, no son aptos para casos de uso diferentes de los inicialmente previstos, y adolecen de falta de informes detallados e intuitivos para el público en general. El desarrollo de una cartografía extensa sobre la relación de zonas de sol y de sombra es un trabajo muy complejo que involucra diversos conceptos y retos de ingeniería, necesitando de la integración de diferentes modelos de datos, de calidad y cantidad heterogéneas, con limitaciones presupuestarias, etc. El objetivo de los trabajos de investigación desarrollados ha sido establecer la arquitectura de software para el desarrollo de Sistemas de Soporte de Decisión en el ámbito de las energías renovables en general, y de la energía solar en particular. La característica clave de este enfoque de arquitectura de software es ser capaz de proporcionar Sistemas de Soporte de Decisión que ofrezcan servicios de bajo coste ("low cost") en este contexto. Hagamos una analogía. Imagínese que usted está buscando comprar o alquilar una casa en España. Quiere analizar las características del edificio (por ejemplo dimensiones, jardín, más de una edificación en la parcela) y su entorno (por ejemplo, conexiones, servicios). Para realizar esta tarea puede utilizar los datos gratuitos proporcionados por la Oficina Virtual del Catastro de España junto con imágenes libres de un proveedor de ortofotografías (por ejemplo PNOA, Google o Bing) y datos contextuales libres procedentes de otros organismos locales, regionales y/o nacionales (por ejemplo el Ayuntamiento de Zaragoza, el Gobierno de Aragón, el proyecto Cartociudad). Si alguien integra todos estos orígenes de datos en un sistema (por ejemplo el cliente del servicio de mapas de la Infraestructura de Datos Espaciales de España, IDEE), tiene un Sistema de Soporte de Decisión "low cost" para comprar o alquilar una casa. Este trabajo de investigación tiene como objetivo el desarrollo de un enfoque de arquitectura de software que podría proporcionar un Sistema de Soporte de Decisión "low cost" cuando los consumidores necesitan tomar decisiones relacionadas con las energías renovables, en particular sistemas de energía solar, como podría ser la selección de la mejor opción para instalar un sistema solar, o decidir una inversión en una granja solar comunitaria. Una parte importante de este proceso de investigación ha consistido en el análisis sobre la idoneidad de las tecnologías vinculadas a Grandes almacenamientos de Datos y procesos de Extracción, Transformación y Carga para almacenar y procesar gran cantidad de datos históricos referentes a la energía, e Inteligencia de Negocios para la estructuración y presentación de informes. Por otro lado, ha sido necesario centrar el trabajo en modelos de negocio abierto (infraestructura de servicios web, modelos de datos 3D, técnicas de representación de datos sobre zonas de sol y sombra, y fuentes de datos) para el desarrollo económico del producto. Además, este trabajo identifica casos de uso donde los Sistemas de Soporte de Decisión deben ser el instrumento de resolución de problemas de mercado y de problemas científicos. Por lo tanto, esta tesis tiene como objetivo enfatizar y adoptar las tecnologías citadas para proponer un Sistema de Soporte de Decisión completo para un mejor uso potencial de las energías renovables que denominamos REDSS (del inglés Renewable Energy Decision Support System). El trabajo de investigación ha sido desarrollado con el objeto de encontrar respuestas a las siguientes preguntas de investigación: Preguntas relacionadas a los datos: - ¿Cómo elegir el proceso de creación de datos más adecuado para crear modelos geográficos cuyo coste económico sea razonable? Preguntas relacionadas con la tecnología: - ¿Qué limitaciones tecnológicas actuales tienen las herramientas computacionales para el cálculo de la intensidad y sombra solar? - ¿Cómo se puede adaptar conceptos como Grandes almacenamientos de Datos y la Inteligencia de Negocios en el campo de las energías renovables? - ¿Cómo estructurar y organizar datos relacionados con la intensidad solar y la sombra? - ¿Cuáles son las diferencias significativas entre el método propuesto y otros servicios globales existentes? Preguntas relacionadas con casos de uso: - ¿Cuáles son los casos de uso de REDSS? - ¿Cuáles son los beneficios de REDSS para expertos y público en general? Para darle una forma concreta a la contribución y el enfoque propuesto, se ha desarrollado un prototipo denominado Energy2People basado en principios de Inteligencia de Negocio que no sólo proporciona datos de localización avanzada sino que es una base sobre la que para desarrollar futuros productos comerciales. En su conformación actual, esta herramienta ayuda a descubrir y representar las relaciones de datos clave en el sector de las energías renovables y, permite descubrir al público en general relaciones entre los datos en casos donde no era evidente. Esencialmente, el enfoque propuesto conduce a un aumento en el rendimiento de gestión y visualización de datos. Las principales aportaciones de esta tesis pueden resumirse como siguen: - En primer lugar, esta tesis hace una revisión de varios modelos de sol-sombra de código abierto y cerrado para identificar el alcance de la necesidad de modelos de decisión y de su soporte efectivo. Además, proporciona información detallada sobre fuentes de información gratuita relacionada con datos de radiación solar. - En segundo lugar, se plantea un armazón conceptual para el desarrollo de modelos geográficos de bajo coste. Como ejemplo de la aplicación de esta aproximación se ha desarrollado un modelo de bajo coste de ciudad virtual 3D utilizando datos catastrales públicamente disponibles vía servicios Web. - En tercer lugar, este trabajo propone el uso de REDSS al problema de la toma de decisiones en el campo de la energía solar. Este modelo también cuenta con otros puntos distinguibles como los enfoques de co-creación y Mix-and-match. - En cuarto lugar, esta tesis identifica varios escenarios de aplicaciones reales y varios tipos de actores que deberían salir beneficiados por la aplicación de esta estrategia. - Por último, esta tesis presenta el prototipo "Enery2People" desarrollado para explorar datos de localización de la radiación solar y eventos temporales que sirve como ejemplo práctico de la aproximación planteada en esta tesis. Para hacer más claro el potencial del enfoque propuesto, este prototipo es comparado con otros Atlas Internacionales de la energía renovable
    corecore