    Business intelligence to support NOVA IMS academic services BI system

    Project Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business IntelligenceKimball argues that Business Intelligence is one of the most important assets of any organization, allowing it to store, explore and add value to the organization’s data which will ultimately help in the decision making process. Nowadays, some organizations and, in this specific case, some schools are not yet transforming data into their full potential and business intelligence is one of the most known tools to help schools in this issue, seen as some of them are still using out-dated information systems, and do not yet apply business intelligence techniques to their increasing amounts of data so as to turn it into useful information and knowledge. In the present report, I intend to analyse the current NOVA IMS academic services data and the rationales behind the need to work with this data, so as to propose a solution that will ultimately help the school board or the academic services to make better-supported decisions. In order to do so, it was developed a Data Warehouse that will clean and transform the source database. Another important step to help the academic services is to present a series of reports to discover information in the decision making process

    Auto-BI: Automatically Build BI-Models Leveraging Local Join Prediction and Global Schema Graph

    Business Intelligence (BI) is crucial in modern enterprises and billion-dollar business. Traditionally, technical experts like database administrators would manually prepare BI-models (e.g., in star or snowflake schemas) that join tables in data warehouses, before less-technical business users can run analytics using end-user dashboarding tools. However, the popularity of self-service BI (e.g., Tableau and Power-BI) in recent years creates a strong demand for less technical end-users to build BI-models themselves. We develop an Auto-BI system that can accurately predict BI models given a set of input tables, using a principled graph-based optimization problem we propose called \textit{k-Min-Cost-Arborescence} (k-MCA), which holistically considers both local join prediction and global schema-graph structures, leveraging a graph-theoretical structure called \textit{arborescence}. While we prove k-MCA is intractable and inapproximate in general, we develop novel algorithms that can solve k-MCA optimally, which is shown to be efficient in practice with sub-second latency and can scale to the largest BI-models we encounter (with close to 100 tables). Auto-BI is rigorously evaluated on a unique dataset with over 100K real BI models we harvested, as well as on 4 popular TPC benchmarks. It is shown to be both efficient and accurate, achieving over 0.9 F1-score on both real and synthetic benchmarks.Comment: full version of a paper accepted to VLDB 202

    Niffler: A Reference Architecture and System Implementation for View Discovery over Pathless Table Collections by Example

    Identifying a project-join view (PJ-view) over collections of tables is the first step of many data management projects, e.g., assembling a dataset to feed into a business intelligence tool, creating a training dataset to fit a machine learning model, and more. When the table collections are large and lack join information--such as when combining databases, or on data lakes--query by example (QBE) systems can help identify relevant data, but they are designed under the assumption that join information is available in the schema, and do not perform well on pathless table collections that do not have join path information. We present a reference architecture that explicitly divides the end-to-end problem of discovering PJ-views over pathless table collections into a human and a technical problem. We then present Niffler, a system built to address the technical problem. We introduce algorithms for the main components of Niffler, including a signal generation component that helps reduce the size of the candidate views that may be large due to errors and ambiguity in both the data and input queries. We evaluate Niffler on real datasets to demonstrate the effectiveness of the new engine in discovering PJ-views over pathless table collections

    Design of a reference architecture for an IoT sensor network

    Fast Foreign-Key Detection in Microsoft SQL Server PowerPivot for Excel

    Microsoft SQL Server PowerPivot for Excel, or PowerPivot for short, is an in-memory business intelligence (BI) engine that enables Excel users to interactively create pivot tables over large data sets imported from sources such as relational databases, text files and web data feeds. Unlike traditional pivot tables in Excel that are defined on a single table, PowerPivot allows analysis over multiple tables connected via foreign-key joins. In many cases however, these foreign-key relationships are not known a priori, and information workers are often not be sophisticated enough to define these relationships. Therefore, the ability to automatically discover foreign-key relationships in PowerPivot is valuable, if not essential. The key challenge is to perform this detection interactively and with high precision even when data sets scale to hundreds of millions of rows and the schema contains tens of tables and hundreds of columns. In this paper, we describe techniques for fast foreign-key detection in PowerPivot and experimentally evaluate its accuracy, performance and scale on both synthetic benchmarks and real-world data sets. These techniques have been incorporated into PowerPivot for Excel. 1

    Holistic, data-driven, service and supply chain optimisation: linked optimisation.

    The intensity of competition and technological advancements in the business environment has made companies collaborate and cooperate together as a means of survival. This creates a chain of companies and business components with unified business objectives. However, managing the decision-making process (like scheduling, ordering, delivering and allocating) at the various business components and maintaining a holistic objective is a huge business challenge, as these operations are complex and dynamic. This is because the overall chain of business processes is widely distributed across all the supply chain participants; therefore, no individual collaborator has a complete overview of the processes. Increasingly, such decisions are automated and are strongly supported by optimisation algorithms - manufacturing optimisation, B2B ordering, financial trading, transportation scheduling and allocation. However, most of these algorithms do not incorporate the complexity associated with interacting decision-making systems like supply chains. It is well-known that decisions made at one point in supply chains can have significant consequences that ripple through linked production and transportation systems. Recently, global shocks to supply chains (COVID-19, climate change, blockage of the Suez Canal) have demonstrated the importance of these interdependencies, and the need to create supply chains that are more resilient and have significantly reduced impact on the environment. Such interacting decision-making systems need to be considered through an optimisation process. However, the interactions between such decision-making systems are not modelled. We therefore believe that modelling such interactions is an opportunity to provide computational extensions to current optimisation paradigms. This research study aims to develop a general framework for formulating and solving holistic, data-driven optimisation problems in service and supply chains. This research achieved this aim and contributes to scholarship by firstly considering the complexities of supply chain problems from a linked problem perspective. This leads to developing a formalism for characterising linked optimisation problems as a model for supply chains. Secondly, the research adopts a method for creating a linked optimisation problem benchmark by linking existing classical benchmark sets. This involves using a mix of classical optimisation problems, typically relating to supply chain decision problems, to describe different modes of linkages in linked optimisation problems. Thirdly, several techniques for linking supply chain fragmented data have been proposed in the literature to identify data relationships. Therefore, this thesis explores some of these techniques and combines them in specific ways to improve the data discovery process. Lastly, many state-of-the-art algorithms have been explored in the literature and these algorithms have been used to tackle problems relating to supply chain problems. This research therefore investigates the resilient state-of-the-art optimisation algorithms presented in the literature, and then designs suitable algorithmic approaches inspired by the existing algorithms and the nature of problem linkages to address different problem linkages in supply chains. Considering research findings and future perspectives, the study demonstrates the suitability of algorithms to different linked structures involving two sub-problems, which suggests further investigations on issues like the suitability of algorithms on more complex structures, benchmark methodologies, holistic goals and evaluation, processmining, game theory and dependency analysis

    Методи і моделі аналізу, оцінювання та прогнозування ризиків у фінансових системах

    Роботу виконано в Інституті прикладного системного аналізу Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського».У дисертаційній роботі розроблено системну методологію аналізу та оцінювання фінансових ризиків, яка ґрунтується на принципах системного аналізу та менеджменту ризиків, а також запропонованих принципах адаптивного та динамічного менеджменту ризиків. Методологія включає: комбінований метод обробки неповних та втрачених даних, ймовірнісно-статистичний метод оцінювання ризику фінансових втрат, динамічний метод оцінювання ризиків, який передбачає побудову різних типів моделей виживання, метод структурно-параметричної адаптації, застосування скорингової карти до аналізу ризиків фінансових систем і нейро-нечіткий метод доповнення вибірки відхиленими заявками. Містить критерії урахування інформаційного ризику, оцінки якості даних, прогнозів та рішень, квадратичний критерій якості опрацювання ризику та інтегральну характеристику оцінювання ефективності методів менеджменту ризиків. Практична цінність одержаних результатів полягає у створенні розширеної інформаційної технології та інформаційної системи підтримки прийняття рішень на основі запропонованої системної методології

    Análisis de datos colaborativos e inteligencia de negocio: aplicación al sector turístico

    [ES] Desde hace varias décadas vivimos en lo que los académicos e industriales han convenido llamar la era de la información y economía del conocimiento, ambas caracterizadas, entre otras cosas, por el rol preponderante que ocupan tanto la información como el conocimiento en el quehacer y en los procesos, tanto productivos como de gestión, de las organizaciones. La información y el conocimiento han pasado de ser un recurso más en las organizaciones a ser uno de los principales activos que éstas poseen y utilizan para tomar decisiones, mejorar sus procesos, comprender el entorno y obtener una ventaja competitiva. Pero, para disfrutar de todos estos beneficios, se hace necesario una gestión pro-activa e inteligente de los datos. Esta última se hace más necesaria en el contexto actual en donde la cantidad de datos disponibles sobrepasa la capacidad del hombre para analizarlos. Es en este contexto donde la Inteligencia de Negocios cobra especial importancia, ya que tiene como propósito tomar datos, generalmente, desde diferentes fuentes, integrarlos y procesarlos, dejándolos listos para posteriores tareas de análisis. Paralelo al lugar importante que ocupa la inteligencia de negocios, está la contribución de la Web 2.0 en la generación de nuevo contenido. La Web 2.0 ha sido uno de los desencadenantes en la producción de datos a través de la internet convirtiéndose así en una fuente valiosa de datos sobre lo que las personas hacen, sienten y desean. Tal es el caso de plataformas como Twitter, que permite a las personas expresar su opinión sobre cualquier tema de interés u OpenStreetMap, que facilita la creación y consulta de información geográfica de manera colaborativa, entre otras. Esta tesis gira en torno al uso de datos colaborativas y la utilización de la tecnología de la Inteligencia de Negocio para soportar el proceso de toma de decisiones, aplicado, concretamente, al sector turístico. Aunque el enfoque de tratamiento de los datos descrito en esta tesis puede ser utilizado, con ligeras adaptaciones, para trabajar en otros dominios, se seleccionó el turismo por ser uno de las principales actividades económicas a nivel mundial. Tomando como referencia el año 2019, este sector económico creció en un 3.5 % por encima de la economía global que creció un 2.5 %, generó 330 millones de empleos (1 de cada 10) y representó el 10.3 % del producto interno bruto global. En primer lugar, se realizó un análisis de las fuentes de datos colaborativas que pueden aportar conocimiento para el análisis de este sector y se seleccionaron cuatro fuentes de datos: OpenStreetMap y Twitter, ya nombradas y Tripadvisor y Airbnb para la información sobre alojamientos. Con las cuatro fuentes de datos colaborativas identificadas y utilizando la Inteligencia de Negocio como soporte tecnológico, se creó una plataforma responsable de todo el proceso, el cual abarca la extracción de datos de las diferentes fuentes, su integración en un formato consistente, su procesamiento y estructuración para ser utilizados en tareas de análisis y visualización de los resultados del análisis. La plataforma construida se denomina BITOUR. BITOUR integra la propuesta de un modelo de BI para manejar datos geoespaciales, abiertos, combinados con contenido de redes sociales (colaborativos) junto con la propuesta de una serie de algoritmos para la identificación de los turistas y residentes de los destinos, la detección de usuarios no reales y la asignación de los tuits a los lugares dentro de un destino. La integración de datos colaborativos, junto con los algoritmos, en una plataforma de Inteligencia de negocio representa una fuente potencial de valioso conocimiento que puede ser aprovechado en el sector turismo para conocer las actividades que realizan los turistas en un destino, las opiniones sobre un destino particular y sus atracciones, los periodos del año más frecuentados por los turistas según la nacionalidad, entre muchas otras preguntas. BITOUR permite definir, interactivamente, un destino a analizar, cargar datos desde diferentes tipos de fuentes (espaciales y de opinión, entre otras), ejecutar rutinas que asocian opiniones a lugares e identifican turistas entre los datos recopilados, así como visualizar los datos a través de la misma plataforma. BITOUR permite, entre otras cosas, la creación de tablas y gráficos dinámicos que posibilitan manipular los resultados de todos los cálculos que en la plataforma se han realizado. De esta manera, se pueden analizar tendencias de los turistas, tener un menor tiempo de respuesta frente a los eventos, enfocar mejor las campañas de mercadeo, etc. En definitiva, tener otra forma de acercarse a los turistas y comprenderlos.[EN] For several decades we have lived what academics and entrepreneurs call the information age and knowledge economy, both characterized, among other things, by the preponderant role that both information and knowledge hold in the production and management work of the organizations. Information and knowledge have evolved from being one among the resources in organizations to being one of their main assets in order to make decisions, to improve their processes, to understand the environment and to obtain a competitive advantage. But, to enjoy all these benefits, a pro-active and intelligent data management is necessary. The latter is more necessary in the current context where the amount of available data exceeds human capacity to analyze it. It is in this context where Business Intelligence takes on special importance since its purpose is to take data, generally from different sources, integrate and process the data so as to leaving it ready for subsequent analysis tasks. Parallel to the relevant role of Business Intelligence, there is the contribution of Web 2.0 in the generation of new data. Web 2.0 has been one of the triggers in the production of data through internet, thus becoming a valuable source of information about what people do, feel and wish. This is the case of platforms such as Twitter, which allows people to express their opinion on any topic of interest or OpenStreetMap, which facilitates the creation and consultation of geographic information in a collaborative way, among others. This thesis revolves around the use of collaborative data and the use of Business Intelligence technology to support the decision-making process, specifically applied to the tourism sector. Although the data management approach described in this thesis can be used, with slight adaptations, to work in other domains, tourism was selected for being one of the main economic activities worldwide. Taking 2019 as a reference, this economic sector grew 3.5 % above the global economy, which grew 2.5 %, generated 330 million jobs (1 in 10) and represented 10.3 % of gross domestic product global. First, an analysis of the collaborative data sources that can provide knowledge for the analysis of this sector was carried out and four data sources were selected: OpenStreetMap and Twitter, already mentioned, and Tripadvisor and Airbnb for information on accommodations. With these four collaborative data sources identified and using Business Intelligence as technological support, a platform responsible for the entire process was created, which includes the extraction of data from the different sources, integration of data in a consistent format, processing and structuring data to be used in analysis tasks and visualization of the analysis results. The built platform is called BITOUR. BITOUR integrates the proposal of a BI model to handle open, geospatial data, combined with content from social networks (collaborative) together with the proposal of a series of algorithms for the identification of tourists and residents of the destinations, the detection of non-real users and the assignment of tweets to places within a destination. The integration of collaborative data in a Business Intelligence platform represents a potential source of valuable knowledge that can be used in the tourism sector to know the activities that tourists carry out in a destination, the opinions about a particular destination and its tourist attractions or the seasons most frequented by tourists according to nationality, among many other questions. BITOUR allows to interactively define a destination to be analyzed, to load data from different types of sources like spatial and opinion sources, to execute routines that associate opinions with places and to identify tourists among the collected data as well as visualize the data in the same platform. BITOUR allows for the creation of dynamic tables and graphics that make it possible to manipulate the results of all the calculations that have been performed on the platform. In this way, tourist trends can be analyzed to shorten response time to events, put the focus on marketing campaigns, etc. In short, having another way of approaching tourists and understanding them.[CA] Des de fa diverses dècades vivim en el que els acadèmics i industrials han convingut dir la era de la informació i economia del coneixement, totes dues caracteritzades, entre altres coses, pel rol preponderant que ocupen tant la informació com el coneixement en el quefer i en els processos, tant productius com de gestió, de les organitzacions. La informació i el coneixement han passat de ser un recurs més en les organitzacions a ser un dels principals actius que aquestes posseeixen i utilitzen per a prendre decisions, millorar els seus processos, comprendre l'entorn i obtenir un avantatge competitiu. Però, per a gaudir de tots aquests beneficis, es fa necessari una gestió pro-activa i intel·ligent de les dades. Aquesta última es fa més necessària en el context actual on la quantitat de dades disponibles sobrepassa la capacitat de l'home per a analitzar-los. És en aquest context on la Intel·ligència de Negocis cobra especial importància, ja que té com a propòsit prendre dades, generalment, des de diferents fonts, integrar-los i processar-los, deixant-los llestos per a posteriors tasques d'anàlisis. Paral·lel al lloc important que ocupa la intel·ligència de negocis, està la contribució de la Web 2.0 en la generació de nou contingut. La Web 2.0 ha sigut un dels desencadenants en la producció de dades a través de la internet convertint-se així en una font valuosa d'informació sobre el que les persones fan, senten i desitgen. Tal és el cas de plataformes com Twitter, que permet a les persones expressar la seua opinió sobre qualsevol tema d'interès o OpenStreetMap, que facilita la creació i consulta d'informació geogràfica de manera col·laborativa, entre altres. Aquesta tesi gira entorn de l'ús de dades col·laboratives i la utilització de la tecnologia de la Intel·ligència de Negoci per a suportar el procés de presa de decisions, aplicat, concretament, al sector turístic. Encara que l'enfocament de tractament de les dades descrit en aquesta tesi pot ser utilitzat, amb lleugeres adaptacions, per a treballar en altres dominis, es va seleccionar el turisme per ser un de les principals activitats econòmiques a nivell mundial. Prenent com a referència l'any 2019, aquest sector econòmic va créixer en un 3.5 % per damunt de l'economia global que va créixer un 2.5 %, va generar 330 milions d'ocupacions (1 de cada 10) i va representar el 10.3 % del producte intern brut global. En primer lloc, es va realitzar una anàlisi de les fonts de dades col·laboratives que poden aportar coneixement per a l'anàlisi d'aquest sector i es van seleccionar quatre fonts de dades: OpenStreetMap i Twitter, ja nomenades i Tripadvisor i Airbnb per a la informació sobre allotjaments. Amb les quatre fonts de dades col·laboratives identificades i utilitzant la Intel·ligència de Negoci com a suport tecnològic, es va crear una plataforma responsable de tot el procés, el qual abasta l'extracció de dades de les diferents fonts, la seua integració en un format consistent, el seu processament i estructuració per a ser utilitzats en tasques d'anàlisis i visualització dels resultats de l'anàlisi. La plataforma construïda es denomina BITOUR. BITOUR integra la proposta d'un model de BI per a manejar dades geo-espacials, obertes, combinades amb contingut de xarxes socials (col·laboratius) juntament amb la proposta d'una sèrie d'algorismes per a: la identificació dels turistes i residents de les destinacions, la detecció d'usuaris no reals i l'assignació dels "tuits" als llocs dins d'una destinació. La integració de dades col·laboratives en una plataforma d’Intel·ligència de negoci representa una font potencial de valuós coneixement que pot ser aprofitat en el sector turisme per a conèixer les activitats que realitzen els turistes en una destinació, les opinions sobre una destinació particular i les seues atraccions, els períodes de l’any més freqüentats pels turistes segons la nacionalitat, entre moltes altres preguntes. BITOUR permet definir, interactivament, una destinació a analitzar, carregar dades des de diferents tipus de fonts (espacials i d’opinió, entre altres), executar rutines que associen opinions a llocs i identifiquen turistes entre les dades recopilades, així com visualitzar les dades a través de la mateixa plataforma. BITOUR permet, entre altres coses, la creació de taules i gràfics dinàmics que possibiliten manipular els resultats de tots els càlculs que en la plataforma s’han realitzat. D’aquesta manera, es poden analitzar tendències dels turistes, tenir un menor temps de resposta enfront dels esdeveniments, enfocar millor les campanyes de mercadeig, etc. En definitiva, tenir una altra manera d’acostar-se als turistes i comprendre’ls.Bustamante Martínez, AA. (2020). Análisis de datos colaborativos e inteligencia de negocio: aplicación al sector turístico [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/160061TESI