1,649 research outputs found
Optimization of supply chain processes with an ETL pipeline & data science applications
Trabalho de Projeto de Mestrado, Ciência de Dados, 2021, Universidade de Lisboa, Faculdade de CiênciasIBM defines supply Chain Management (SCM) as the management of raw components until their delivery as a final product to the consumer[11]. When a construction company takes over the SCM, it needs to handle various materials and sizes, including procurement for the best supplier, logistics, and storage in the local warehouse for later distribution into construction sites. Enterprise Resource Planning (ERP) software facilitates data management in the SCM. They provide a GUI where collaborators can interact with a database adapted to OLTP tasks such as information retrieval, requisitions for new materials, and inventory management. With the growth of any industry, the need for analytical applications grows. However, it is challenging to provide enough compute resources for the operational and analytical tasks while not compromising access to the data. To overcome this problem, several services in the cloud can provide new data working environments. For example, cloud providers have data lakes, databases, serverless code execution platforms, virtual machines and machine learning platforms that enable developers to build their own adapted infrastructure and analytical applications. Mota¬Engil has been the subject of this project, a multi¬national construction company with supply chain management happening in and out of 20 countries. Their ERP software is SAP S/4HANA and is hosted on ¬premises. However, at the moment, there is no central analytics¬ dedicated database. To increase its development opportunities, I created an ETL pipeline that collects data from a local file system and uploads it into the cloud. Initially, all the data is extracted to Azure Data Lake Storage, it is transformed using Azure Functions and loaded into a new Azure SQL Database. Finally, I use Azure CLI to move data and execute the Azure cloud services to perform all of these commands. With the database constructed and populated, I developed two applications that leveraged its existence. The first idea was the creation of a monitoring BI report for warehouses with Power BI and providing a complete overview of the processes by choosing metrics with the Balanced Scorecard method[14]. The last application improves information retrieval by applying a Nearest Neighbots model with a novel distance algorithm. This model has been deployed into Azure Machine Learning for on ¬the ¬go material search and to an Azure VM for scheduled data processing, loading the results back into the database. In the end, it is possible to perform a search for construction materials through a flask developed web app by interacting with both model deployments to obtain the results.A gestão da cadeia de abastecimento é a gestão de matéria prima desde a sua fonte até ao destino como produto final[11]. Empresas de construção também estão envolvidas numa cadeia, ao ter de obter os materiais de que necessitam e realizar o abastecimento dos seus locais de construção. Nesta gestão estão incluídos materiais de variadas formas e tamanhos. Dependendo do envolvimento da empresa, elas podem fazer a procura do melhor fornecedor para o produto em necessidade; podem também tratar da logística, que se pode tornar complexa se incluir importações; e finalmente do armazenamento do produto para posterior distribuição. Para melhorar a gestão destes processos, é necessário fazer a recolha de dados. Existem vários tipos de software denominados de Enterprise Resource Planning (ERP) que ajudam na administração de dados de diferentes áreas empresariais, incluindo a de cadeia de abastecimento. Através destes tipos de software, é possível ao colaborador interagir com uma base de dados adaptada a processos de OLTP. Isto permite processos de extração de informação, criação de requisições e gestão de inventário. Com o crescimento da atividade de uma empresa, a quantidade de dados também cresce. Aplicações de analítica tornam-¬se muito úteis, pois permitem não só uma melhor monitorização desses dados, como também uma melhor optimização dos processos existentes. Mas a implementação de novas aplicações é dificultada pelo efeito de botteneck criado na fonte de dados devido à sua grande requisição. Existem serviços de cloud especializados na implementação de novos ambientes de dados. Esses serviços incluem data lakes para armazenamento de todo o tipo de informação, plataformas de execução de código em modo serverless para realizar transformações, máquinas virtuais para virtualizar ambientes computacionais locais, e plataformas de aprendizagem automática para realizar tarefas de machine learning. Estes serviços são atualizados com uma periodicidade muito frequente, incluindo novas utilidades para o cliente. É também possível interligar todos estes serviços de maneira a automatizar processos ¬ e combinando de diferentes formas, programadores conseguem desenvolver uma nova infraestrutura para suportar inovações dentro da empresa. A Mota¬Engil é o sujeito de estudo para este projeto. É um conglomerado português, líder no sétor da construção, com atividade em mais de 20 países, incluindo no continente Africano e Americano. A cadeia de abastecimento inclui logística intercontinental entre continentes e gestão de múltiplos armazéns em mais de 20 países. O software de gestão empresarial é o SAP S/4HANA e é hospedado localmente nos escritórios da empresa. De momento não existe nenhuma base de dados dedicada a aplicações de analítica. De maneira a aumentar as oportunidades de inovação dentro da empresa, criei um canal de ETL que retira dados de um sistema de ficheiros local e exporta tudo para a Azure cloud. Inicialmente, os ficheiros são exportados para o Azure Data Lake Storage (ADLS), encontrando-¬se em múltiplos formatos, com erros na formatação das colunas e inconsistências. Para standardizar os dados, utilizo Azure Functions que transforma os dados e converte para formato CSV. No final, é feito o carregamento dos ficheiros CSV para o Azure SQL Database usando comandos T¬SQL. Para comunicar com todos os serviços de cloud, utilizo comandos do Azure CLI que permitiram automatização em scripts de linguagem Bash. Com a conclusão do ETL e da construção do esquema de dados, obteve¬se uma base de dados completamente disponível e adaptada a processamento analítico. Apoiando a estrutura neste resultado, foi possível construir duas aplicações de data science que melhoram partes do processo da cadeia de abastecimento dentro da empresa. A primeira ideia a ser implementada foi a criação de um report de BI para os armazéns em África. Até 2020, os relatórios eram criados em ficheiros Excel, e os dados eram agregados para formar métricas de valor de estoque por mês, valor de estoque consumido e rotação. Para melhorar a monitorização dos armazéns, criei um novo relatório em Microsoft Power BI que fornece novos indicadores dos processos de armazém com base no método do Balanced Scorecard[14]. O relatório em Power BI importa os dados diretamente do Azure SQL Database com recurso a views especializadas ao seu uso no relatório. O relatório contém três páginas, incluíndo duas para monitorizar o estoque em armazém, e outra página dedicada ao consumo de materiais. Também existem utilidades que ajudam colaboradores a explorar dados e outras que facilitam a compreensão do relatório. A segunda e última aplicação tenta melhorar a extração de informação sobre materiais. A tarefa a ser optimizada encontra¬se no início da cadeia de abastecimento. Utilizadores ao criarem uma nova requisição, precisam especificar os materiais em necessidade. O SAP permite procurar com recurso a wildcard (*), mas nao permite uma procura aproximada, ou seja, não retorna materiais quando é feita uma procura contendo pequenas divergências do material existente na base de dados (como erros de ortografia). Para melhorar este processo de extração, decidi utilizar um modelo de NearestNeighbors (NN) em conjunto com um novo algoritmo de distância customizado ao problema em análise. O algoritmo de distância inclui o calculo da distância de Levenshtein[18], e generalizada a descrições de materiais. Num estudo de optimização de processamento com várias implementações do modelo de NN, concluiu¬-se que é mais eficiente realizar o cálculo de distâncias em paralelo e adaptado, antes de fornecer como argumento ao modelo de NN. O modelo foi introduzido no Azure Machine Learning e criado um endpoint com o qual é possível realizar pedidos para obter os materiais mais próximos. O modelo também foi incluído no aprovisionamento de uma máquina virtual para processamento periódico de código. Para fazer este aprovisionamento, foi utilizado Ansible, uma ferramenta de automatização para inicializar aplicações e configurado o processamento periódico através de um novo cronjob na máquina virtual. No final do processamento, é criada uma nova tabela na base de dados com clusters de materiais. Para concluir este projeto, criei uma aplicação em flask que obtém os resultados dos dois serviços. Com o endpoint do Azure Machine Learning, a aplicação obtém os resultados mais próximos de uma consulta feita na barra de procura. Ao realizar esta procura, é calculado a distância entre a consulta e as descrições existentes na base de dados, retornando os dez resultados mais próximos. Com os resultados do processamento periódico na base de dados, utilizo ferramentas crio uma consulta especializada que retorna os resultados mais próximos do material pretendido. A última consulta acaba por ser mais rápida para obter resultados porque os dados já estão processados na base de dados, ao contrário do modelo em Azure Machine Learning que tem de processar os resultados sempre que uma consulta é feita. Ao desenvolver os algoritmos e infraestrutura para estas aplicações, também disponibilizei ferramentas que facilitam futuras implementações. Por exemplo, a máquina virtual de processamento periódico pode realizar mais tarefas, incluindo o próprio processo de ETL. E o modelo de procura também poderá ser utilizado para outras tarefas de information retrieval, como a procura de peças por número de peça
BUILDING DSS USING KNOWLEDGE DISCOVERY IN DATABASE APPLIED TO ADMISSION & REGISTRATION FUNCTIONS
This research investigates the practical issues surrounding the development and
implementation of Decision Support Systems (DSS). The research describes the traditional
development approaches analyzing their drawbacks and introduces a new DSS development
methodology. The proposed DSS methodology is based upon four modules; needs' analysis,
data warehouse (DW), knowledge discovery in database (KDD), and a DSS module.
The proposed DSS methodology is applied to and evaluated using the admission and
registration functions in Egyptian Universities. The research investigates the organizational
requirements that are required to underpin these functions in Egyptian Universities. These
requirements have been identified following an in-depth survey of the recruitment process in
the Egyptian Universities. This survey employed a multi-part admission and registration DSS
questionnaire (ARDSSQ) to identify the required data sources together with the likely users
and their information needs. The questionnaire was sent to senior managers within the
Egyptian Universities (both private and government) with responsibility for student
recruitment, in particular admission and registration.
Further, access to a large database has allowed the evaluation of the practical suitability of
using a data warehouse structure and knowledge management tools within the decision
making framework. 1600 students' records have been analyzed to explore the KDD process,
and another 2000 records have been used to build and test the data mining techniques within
the KDD process.
Moreover, the research has analyzed the key characteristics of data warehouses and explored
the advantages and disadvantages of such data structures. This evaluation has been used to
build a data warehouse for the Egyptian Universities that handle their admission and
registration related archival data. The decision makers' potential benefits of the data
warehouse within the student recruitment process will be explored.
The design of the proposed admission and registration DSS (ARDSS) will be developed and
tested using Cool: Gen (5.0) CASE tools by Computer Associates (CA), connected to a MSSQL
Server (6.5), in a Windows NT (4.0) environment. Crystal Reports (4.6) by Seagate will
be used as a report generation tool. CLUST AN Graphics (5.0) by CLUST AN software will
also be used as a clustering package.
Finally, the contribution of this research is found in the following areas:
A new DSS development methodology;
The development and validation of a new research questionnaire (i.e. ARDSSQ);
The development of the admission and registration data warehouse;
The evaluation and use of cluster analysis proximities and techniques in the KDD process
to find knowledge in the students' records;
And the development of the ARDSS software that encompasses the advantages of the
KDD and DW and submitting these advantages to the senior admission and registration
managers in the Egyptian Universities.
The ARDSS software could be adjusted for usage in different countries for the same purpose,
it is also scalable to handle new decision situations and can be integrated with other systems
Design, implementation and realization of an integrated platform dedicated to e-public health, for analysing health data and supporting the management control in healthcare companies.
In healthcare, the information is a fundamental aspect and the human body is the major source of every kind of data: the challenge is to benefit from this huge amount of unstructured data by applying technologic solutions, called Big Data Analysis, that allows the management of data and the extraction of information through informatic systems. This thesis aims to introduce a technologic solution made up of two open source platforms: Power BI and Knime Analytics Platform. First, the importance, the role and the processes of business intelligence and machine learning in healthcare will be discussed; secondly, the platforms will be described, particularly enhancing their feasibility and capacities. Then, the clinical specialties, where they have been applied, will be shown by highlighting the international literature that have been produced: neurology, cardiology, oncology, fetal-monitoring and others. An application in the current pandemic situation due to SARS-CoV-2 will be described by using more than 50000 records: a cascade of 3 platforms helping health facilities to deal with the current worldwide pandemic.
Finally, the advantages, the disadvantages, the limitations and the future developments in this framework will be discussed while the architectural technologic solution containing a data warehouse, a platform to collect data, two platforms to analyse health and management data and the possible applications will be shown
Analytical study and computational modeling of statistical methods for data mining
Today, there is tremendous increase of the information available on electronic form. Day by day it is increasing massively. There are enough opportunities for research to retrieve knowledge from the data available in this information. Data mining and app
Learning Large-Scale Bayesian Networks with the sparsebn Package
Learning graphical models from data is an important problem with wide
applications, ranging from genomics to the social sciences. Nowadays datasets
often have upwards of thousands---sometimes tens or hundreds of thousands---of
variables and far fewer samples. To meet this challenge, we have developed a
new R package called sparsebn for learning the structure of large, sparse
graphical models with a focus on Bayesian networks. While there are many
existing software packages for this task, this package focuses on the unique
setting of learning large networks from high-dimensional data, possibly with
interventions. As such, the methods provided place a premium on scalability and
consistency in a high-dimensional setting. Furthermore, in the presence of
interventions, the methods implemented here achieve the goal of learning a
causal network from data. Additionally, the sparsebn package is fully
compatible with existing software packages for network analysis.Comment: To appear in the Journal of Statistical Software, 39 pages, 7 figure
Developing A New Decision Support System for University Student Recruitment
This paper investigates the practical issues surrounding the development and implementation of Decision Support Systems (DSS). The paper describes the traditional development approaches analyzing their drawbacks and introduces a new DSS development methodology.
The proposed DSS methodology is based upon four modules; needs’ analysis, data warehouse (DW), knowledge discovery in database (KDD), and a DSS module. The proposed DSS methodology is applied to and evaluated using the admission and registration functions in Egyptian Universities. The paper investigates the organizational requirements that are required to underpin these functions in Egyptian Universities. These requirements have been identified following an in-depth survey of the recruitment process in the Egyptian Universities. This survey employed a multi-part admission and registration DSS questionnaire (ARDSSQ) to identify the required data sources together with the likely users and their information needs. The questionnaire was sent to senior managers within the Egyptian Universities (both private and government) with responsibility for student recruitment, in particular admission and registration.
Further, access to a large database has allowed the evaluation of the practical suitability of using a DW structure and knowledge management tools within the decision making framework. 2000 records have been used to build and test the data mining techniques within the KDD process. The records were drawn from the Arab Academy for Science and Technology and Maritime Transport (AASTMT) students’ database (DB).
Moreover, the paper has analyzed the key characteristics of DW and explored the advantages and disadvantages of such data structures. This evaluation has been used to build a DW for the Egyptian Universities that handle their admission and registration related archival data. The decision makers’ potential benefits of the DW within the student recruitment process will be explored.
The design of the proposed admission and registration DSS (ARDSS) will be developed and tested using Cool: Gen (5.0) CASE tools by Computer Associates (CA), connected to a MS-SQL Server (6.5), in a Windows NT (4.0) environment. Crystal Reports (4.6) by Seagate will be used as a report generation tool. CLUSTAN Graphics (5.0) by CLUSTAN software will also be used as a clustering package.
The ARDSS software could be adjusted for usage in different countries for the same purpose, it is also scalable to handle new decision situations and can be integrated with other systems
- …