82 research outputs found

    The WfQL: A Proposal for a Standard WfMS Interface

    Get PDF

    Report from GI-Dagstuhl Seminar 16394: Software Performance Engineering in the DevOps World

    Get PDF
    This report documents the program and the outcomes of GI-Dagstuhl Seminar 16394 "Software Performance Engineering in the DevOps World". The seminar addressed the problem of performance-aware DevOps. Both, DevOps and performance engineering have been growing trends over the past one to two years, in no small part due to the rise in importance of identifying performance anomalies in the operations (Ops) of cloud and big data systems and feeding these back to the development (Dev). However, so far, the research community has treated software engineering, performance engineering, and cloud computing mostly as individual research areas. We aimed to identify cross-community collaboration, and to set the path for long-lasting collaborations towards performance-aware DevOps. The main goal of the seminar was to bring together young researchers (PhD students in a later stage of their PhD, as well as PostDocs or Junior Professors) in the areas of (i) software engineering, (ii) performance engineering, and (iii) cloud computing and big data to present their current research projects, to exchange experience and expertise, to discuss research challenges, and to develop ideas for future collaborations

    Cloud computing with an emphasis on PaaS and Google app engine

    Get PDF
    Thesis on cloud with an emphasis on PaaS and Google App Engin

    Data provisioning in simulation workflows

    Get PDF
    Computer-based simulations become more and more important, e.g., to imitate real-world experiments such as crash tests, which would otherwise be too expensive or not feasible at all. Thereby, simulation workflows may be used to control the interaction with simulation tools performing necessary numerical calculations. The input data needed by these tools often come from diverse data sources that manage their data in a multiplicity of proprietary formats. Hence, simulation workflows additionally have to carry out many complex data provisioning tasks. These tasks filter and transform heterogeneous input data in such a way that underlying simulation tools can properly ingest them. Furthermore, some simulations use different tools that need to exchange data between each other. Here, even more complex data transformations are needed to cope with the differences in data formats and data granularity as they are expected by involved tools. Nowadays, scientists conducting simulations typically have to design their simulation workflows on their own. So, they have to implement many low-level data transformations that realize the data provisioning for and the data exchange between simulation tools. In doing so, they waste time for workflow design, which hinders them to concentrate on their core issue, i.e., the simulation itself. This thesis introduces several novel concepts and methods that significantly alleviate the design of the complex data provisioning in simulation workflows. Firstly, it addresses the issue that most existing workflow systems offer multiple and diverse data provisioning techniques. So, scientists are frequently overwhelmed with selecting certain techniques that are appropriate for their workflows. This thesis discusses how to conquer the multiplicity and diversity of available techniques by their systematic classification. The resulting classes of techniques are then compared with each other considering relevant functional and non-functional requirements for data provisioning in simulation workflows. The major outcome of this classification and comparison is a set of guidelines that assist scientists in choosing proper data provisioning techniques. Another problem with existing workflow systems is that they often do not support all kinds of data resources or data management operations required by concrete computer-based simulations. So, this thesis proposes extensions of conventional workflow languages that offer a generic solution to data provisioning in arbitrary simulation workflows. These extensions allow for specifying any data management operation that may be described via the query or command languages of involved data resources, e.g., arbitrary SQL statements or shell commands. The proposed extensions of workflow languages still do not remove the burden from scientists to specify many complex data management operations using low-level query and command languages. Hence, this thesis introduces a novel pattern-based approach that even further enhances the abstraction support for simulation workflow design. Instead of specifying many workflow tasks, scientists only need to select a small number of abstract patterns to describe the high-level simulation process they have in mind. Furthermore, scientists are familiar with the parameters to be specified for the patterns, because these parameters correspond to terms or concepts that are related to their domain-specific simulation methodology. A rule-based transformation approach offers flexible means to finally map high-level patterns onto executable simulation workflows. Another major contribution is a pattern hierarchy arranging different kinds of patterns according to clearly distinguished abstraction levels. This facilitates a holistic separation of concerns and provides a systematic framework to incorporate different kinds of persons and their various skills into workflow design, e.g., not only scientists, but also data engineers. Altogether, the pattern-based approach conquers the data complexity associated with simulation workflows, which allows scientists to concentrate on their core issue again, namely on the simulation itself. The last contribution is a complementary optimization method to increase the performance of local data processing in simulation workflows. This method introduces various techniques that partition relevant local data processing tasks between the components of a workflow system in a smart way. Thereby, such tasks are either assigned to the workflow execution engine or to a tightly integrated local database system. Corresponding experiments revealed that, even for a moderate data size of about 0.5 MB, this method is able to reduce workflow duration by nearly a factor of 9

    Influence of Resource Sharing on Performance

    Get PDF
    Resource sharing occurs when multiple active processes or software components compete for system resources, which influences the observed performance compared to an individual execution. Isolated benchmarking of durations of key operations for solving of performance prediction models may therefore yield imprecise results. Resource sharing also occurs between the measured code and the benchmark infrastructure for obtaining and storing samples, imposing an indirect overhead. This thesis quantifies the effects of sharing on performance for several resources that are often shared, namely the processor caches and the file systems. The highest possible performance impact of cache sharing is determined by synthetic benchmarks. Impact on practical code and its dependency on a number of factors such as cache trashing frequency and intensity are then determined by experiments with existing implementations of FFT and LZW algorithms and a video stream processing application. Effects of file system sharing are measured by experiments that read and write multiple files simultaneously. For both resources, situations with significant performance impact of sharing have been observed. Based on the results of the experiments, several suggestions for dealing with the overhead of performance monitoring infrastructure are...Sdílení prostředků nastává v případech, kdy několik současně aktivních procesů či softwarových komponent využívá stejné systémové prostředky, což ovlivňuje výkon v porovnání s individuálním během. Izolované měření dob trvání klíčových operací pro řešení modelů predikce výkonu tudíž může přinášet nepřesné výsledky. Sdílení prostředků také nastává mezi měřeným kódem a měřící infrastrukturou, která sbírá a ukládá výsledky, což nepřímo zvyšuje její režii. Tato práce kvantifikuje vlivy sdílení na výkon pro několik často sdílených prostředků, jmenovitě procesorových caches a souborových systémů. Horní odhad možného ovlivnění výkonu sdílením caches je stanoven pomocí syntetických testů. Účinky na praktický kód a jejich závislosti na různých faktorech, jako frekvence a intenzita trashování cache, jsou poté změřeny pomocí experimentů s existujícími implementacemi algoritmů FFT a LZW a aplikací pro zpracování videa. Efekty sdílení souborového systému na rychlost jsou změřeny pomocí experimentů provádějících hromadný zápis a čtení z několika souborů. Za určitých okolností lze pozorovat významné dopady sdílení u každého z uvažovaných prostředků. Na základě výsledků těchto měření je nadále navrženo několik rad pro řešení problému režie měřící infrastruktury. Také je zde diskutována použitelnost provedených experimentů a...Department of Software EngineeringKatedra softwarového inženýrstvíFaculty of Mathematics and PhysicsMatematicko-fyzikální fakult

    The 11th Conference of PhD Students in Computer Science

    Get PDF

    Arquitectura, técnicas y modelos para posibilitar la Ciencia de Datos en el Archivo de la Misión Gaia

    Get PDF
    Tesis inédita de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, leída el 26/05/2017.The massive amounts of data that the world produces every day pose new challenges to modern societies in terms of how to leverage their inherent value. Social networks, instant messaging, video, smart devices and scientific missions are just mere examples of the vast number of sources generating data every second. As the world becomes more and more digitalized, new needs arise for organizing, archiving, sharing, analyzing, visualizing and protecting the ever-increasing data sets, so that we can truly develop into a data-driven economy that reduces inefficiencies and increases sustainability, creating new business opportunities on the way. Traditional approaches for harnessing data are not suitable any more as they lack the means for scaling to the larger volumes in a timely and cost efficient manner. This has somehow changed with the advent of Internet companies like Google and Facebook, which have devised new ways of tackling this issue. However, the variety and complexity of the value chains in the private sector as well as the increasing demands and constraints in which the public one operates, needs an ongoing research that can yield newer strategies for dealing with data, facilitate the integration of providers and consumers of information, and guarantee a smooth and prompt transition when adopting these cutting-edge technological advances. This thesis aims at providing novel architectures and techniques that will help perform this transition towards Big Data in massive scientific archives. It highlights the common pitfalls that must be faced when embracing it and how to overcome them, especially when the data sets, their transformation pipelines and the tools used for the analysis are already present in the organizations. Furthermore, a new perspective for facilitating a smoother transition is laid out. It involves the usage of higher-level and use case specific frameworks and models, which will naturally bridge the gap between the technological and scientific domains. This alternative will effectively widen the possibilities of scientific archives and therefore will contribute to the reduction of the time to science. The research will be applied to the European Space Agency cornerstone mission Gaia, whose final data archive will represent a tremendous discovery potential. It will create the largest and most precise three dimensional chart of our galaxy (the Milky Way), providing unprecedented position, parallax and proper motion measurements for about one billion stars. The successful exploitation of this data archive will depend to a large degree on the ability to offer the proper architecture, i.e. infrastructure and middleware, upon which scientists will be able to do exploration and modeling with this huge data set. In consequence, the approach taken needs to enable data fusion with other scientific archives, as this will produce the synergies leading to an increment in scientific outcome, both in volume and in quality. The set of novel techniques and frameworks presented in this work addresses these issues by contextualizing them with the data products that will be generated in the Gaia mission. All these considerations have led to the foundations of the architecture that will be leveraged by the Science Enabling Applications Work Package. Last but not least, the effectiveness of the proposed solution will be demonstrated through the implementation of some ambitious statistical problems that will require significant computational capabilities, and which will use Gaia-like simulated data (the first Gaia data release has recently taken place on September 14th, 2016). These ambitious problems will be referred to as the Grand Challenge, a somewhat grandiloquent name that consists in inferring a set of parameters from a probabilistic point of view for the Initial Mass Function (IMF) and Star Formation Rate (SFR) of a given set of stars (with a huge sample size), from noisy estimates of their masses and ages respectively. This will be achieved by using Hierarchical Bayesian Modeling (HBM). In principle, the HBM can incorporate stellar evolution models to infer the IMF and SFR directly, but in this first step presented in this thesis, we will start with a somewhat less ambitious goal: inferring the PDMF and PDAD. Moreover, the performance and scalability analyses carried out will also prove the suitability of the models for the large amounts of data that will be available in the Gaia data archive.Las grandes cantidades de datos que se producen en el mundo diariamente plantean nuevos retos a la sociedad en términos de cómo extraer su valor inherente. Las redes sociales, mensajería instantánea, los dispositivos inteligentes y las misiones científicas son meros ejemplos del gran número de fuentes generando datos en cada momento. Al mismo tiempo que el mundo se digitaliza cada vez más, aparecen nuevas necesidades para organizar, archivar, compartir, analizar, visualizar y proteger la creciente cantidad de datos, para que podamos desarrollar economías basadas en datos e información que sean capaces de reducir las ineficiencias e incrementar la sostenibilidad, creando nuevas oportunidades de negocio por el camino. La forma en la que se han manejado los datos tradicionalmente no es la adecuada hoy en día, ya que carece de los medios para escalar a los volúmenes más grandes de datos de una forma oportuna y eficiente. Esto ha cambiado de alguna manera con la llegada de compañías que operan en Internet como Google o Facebook, ya que han concebido nuevas aproximaciones para abordar el problema. Sin embargo, la variedad y complejidad de las cadenas de valor en el sector privado y las crecientes demandas y limitaciones en las que el sector público opera, necesitan una investigación continua en la materia que pueda proporcionar nuevas estrategias para procesar las enormes cantidades de datos, facilitar la integración de productores y consumidores de información, y garantizar una transición rápida y fluida a la hora de adoptar estos avances tecnológicos innovadores. Esta tesis tiene como objetivo proporcionar nuevas arquitecturas y técnicas que ayudarán a realizar esta transición hacia Big Data en archivos científicos masivos. La investigación destaca los escollos principales a encarar cuando se adoptan estas nuevas tecnologías y cómo afrontarlos, principalmente cuando los datos y las herramientas de transformación utilizadas en el análisis existen en la organización. Además, se exponen nuevas medidas para facilitar una transición más fluida. Éstas incluyen la utilización de software de alto nivel y específico al caso de uso en cuestión, que haga de puente entre el dominio científico y tecnológico. Esta alternativa ampliará de una forma efectiva las posibilidades de los archivos científicos y por tanto contribuirá a la reducción del tiempo necesario para generar resultados científicos a partir de los datos recogidos en las misiones de astronomía espacial y planetaria. La investigación se aplicará a la misión de la Agencia Espacial Europea (ESA) Gaia, cuyo archivo final de datos presentará un gran potencial para el descubrimiento y hallazgo desde el punto de vista científico. La misión creará el catálogo en tres dimensiones más grande y preciso de nuestra galaxia (la Vía Láctea), proporcionando medidas sin precedente acerca del posicionamiento, paralaje y movimiento propio de alrededor de mil millones de estrellas. Las oportunidades para la explotación exitosa de este archivo de datos dependerán en gran medida de la capacidad de ofrecer la arquitectura adecuada, es decir infraestructura y servicios, sobre la cual los científicos puedan realizar la exploración y modelado con esta inmensa cantidad de datos. Por tanto, la estrategia a realizar debe ser capaz de combinar los datos con otros archivos científicos, ya que esto producirá sinergias que contribuirán a un incremento en la ciencia producida, tanto en volumen como en calidad de la misma. El conjunto de técnicas e infraestructuras innovadoras presentadas en este trabajo aborda estos problemas, contextualizándolos con los productos de datos que se generarán en la misión Gaia. Todas estas consideraciones han conducido a los fundamentos de la arquitectura que se utilizará en el paquete de trabajo de aplicaciones que posibilitarán la ciencia en el archivo de la misión Gaia (Science Enabling Applications). Por último, la eficacia de la solución propuesta se demostrará a través de la implementación de dos problemas estadísticos que requerirán cantidades significativas de cómputo, y que usarán datos simulados en el mismo formato en el que se producirán en el archivo de la misión Gaia (la primera versión de datos recogidos por la misión está disponible desde el día 14 de Septiembre de 2016). Estos ambiciosos problemas representan el Gran Reto (Grand Challenge), un nombre grandilocuente que consiste en inferir una serie de parámetros desde un punto de vista probabilístico para la función de masa inicial (Initial Mass Function) y la tasa de formación estelar (Star Formation Rate) dado un conjunto de estrellas (con una muestra grande), desde estimaciones con ruido de sus masas y edades respectivamente. Esto se abordará utilizando modelos jerárquicos bayesianos (Hierarchical Bayesian Modeling). Enprincipio,losmodelospropuestos pueden incorporar otros modelos de evolución estelar para inferir directamente la función de masa inicial y la tasa de formación estelar, pero en este primer paso presentado en esta tesis, empezaremos con un objetivo algo menos ambicioso: la inferencia de la función de masa y distribución de edades actual (Present-Day Mass Function y Present-Day Age Distribution respectivamente). Además, se llevará a cabo el análisis de rendimiento y escalabilidad para probar la idoneidad de la implementación de dichos modelos dadas las enormes cantidades de datos que estarán disponibles en el archivo de la misión Gaia...Depto. de Arquitectura de Computadores y AutomáticaFac. de InformáticaTRUEunpu

    Decision-making support for the alignment of business-process-driven organization with strategic plans.

    Get PDF
    Los planes de negocio son documentos en los que los equipos ejecutivos de las organizaciones (BETs, por sus siglas en inglés), especifican todos y cada uno de los aspectos de la organización. Dos componentes muy importantes de los planes de negocio son el plan de operaciones y el plan estratégico. El plan de operaciones recoge, tanto las actividades/tareas que se pueden realizar en la organización, para proporcionar los productos o servicios que se ofrecen, cómo la forma en que se han de llevar a cabo estas actividades/tareas; El plan estratégico especifica la dirección y los objetivos de la organización, elabora objetivos e identifica estrategias para alcanzar éstos objetivos. Las organizaciones siguen la dirección establecida sus planes estratégicos, pero debido a diversos factores, a menudo esto, mantener la dirección establecida es difícil. Uno de estos factores es la influencia de las personas, las cuales toman decisiones, en ocasiones basadas en su conocimiento local de la organización, sus experiencias previas y/o su intuición, en lugar de hacerlo mediante un análisis cuantitativo de cómo sus decisiones pueden afectar a la organización, y por tanto cómo de alineadas están con la dirección establecida. Esto hace que, en ocasiones, las decisiones no estén alineadas con la dirección marcada por la organización, y que además que ni se tenga constancia de este hecho. En esta tesis doctoral se proponen metodologías y mecanismos para ayudar a las personas, a tomar decisiones alineadas con la dirección establecida por la organización. La consultora GartnerTM considera que la capacidad de ayudar en el proceso de toma de decisión es crucial para los sistemas que respaldan las operaciones de la empresa (BPMSs, por sus siglas en inglés). Por esta razón, las metodologías y mecanismos propuestos en esta tesis, se integran dentro con los BPMSs, como sistemas de ayuda a la toma de decisiones (DSS, por sus siglas en inglés). De un análisis sistemático de la literatura existente, se derivaron varias propuestas para la mejora de DSSs, y se identificaron tres tipos de decisiones que se toman en procesos de negocio, las cuales no están ampliamente respaldadas por los DSSs actuales: (1) decisiones que direccionan la instancia de proceso de negocio (BPI, por sus siglas en inglés); (2) decisiones sobre el valor de las variables de entrada; y (3) decisiones sobre qué proceso de negocio (BP, por sus siglas in inglés) ejecutar. En esta tesis se proponen tres DSSs, cada uno de ellos, alineado con uno de los tipos de decisión antes mencionados. Los DSSs para el direccionamiento de BPIs constituyen uno de los campos de estudio más conocidos en el contexto de la toma de decisiones en BPs, sin embargo, las propuestas encontradas en la literatura, no permiten considerar el contexto en el que se está ejecutando la BPI, es decir, estas propuestas solo consideran la información relacionada con BPI en ejecución (es decir, sólo tienen en cuenta información local) y no consideran el estado global de la organización. El DSS, para direccionar BPIs presentado en esta tesis, propone un lenguaje que permite definir variables, la cuales representan el estado global de la organización, y además mecanismos para utilizar éstas variables en las decisiones de direccionamiento de la BPI. Gracias a esto, las decisiones se pueden tomar de manera global a la organización. Otro tipo de decisiones que se toman en BP está relacionado con elegir valores de entrada de los BP (por ejemplo, la cantidad a invertir o la cantidad de empleados que se asignan a una tarea). La elección de valores de entrada en BP puede influir directamente en que la empresa consiga los objetivos marcados, o no. Para determinar los valores más adecuados para las variables de entrada de los BP, se deben analizar tanto las instancias pasadas, como los modelos de procesos de negocio. En el DSS propuesto en esta tesis para decidir sobre los valores de entrada, la información extraída de instancias pasadas es utilizada utiliza para sugerir el rango de valores dentro del cual, el valor de la variable está alineado con los objetivos marcados por la organización. Dado que la información empleada para extraer el conocimiento de los BPI finalizados se almacena en bases de datos, también se propone una metodología para validar la alineación de los datos de estas instancias anteriores con el BP. Los DSS descritos anteriormente están relacionados con las decisiones tomadas sobre BPI, es decir BP que se están ya ejecutando; sin embargo, la elección de qué BP se debe ejecutar, también constituye una decisión en sí misma. Esta decisión también puede afectar el estado de la organización y, por lo tanto, puede afectar el logro de los objetivos especificados en los planes estratégicos de la organización. Estas decisiones se conocen como decisiones de gobernanza, y también deben estar alineadas con los planes estratégicos. Con el fin de conseguir este alineamiento, en esta tesis se propone una metodología para modelar, tanto los BP, como la medida en que la ejecución de éstos afecta a los indicadores de la organización. Éste modelad lo hacen personas (expertos en negocios), por lo que en esta tesis también se proponen mecanismos para su validación respecto de la actividad de la organización en el pasado. El DSS propuesto para decisiones de gobernanza, se basa en la capacidad de simular estos modelos, para predecir el estado final de la organización en caso de ejecutar uno varios procesos de negocio, en un momento determinado. Los DSSs y técnicas propuestas en esta tesis mejoran la capacidad de toma de decisiones en cuatro aspectos: 1. Ayudan a los usuarios a tomar decisiones alineadas con la dirección marcada por la organización, en función del estado general de la empresa y de lo que sucedió en el pasado. 2. Aseguran que las decisiones tomadas estén alineadas con los planes estratégicos, por lo que todas las personas involucradas en la organización toman decisiones de acuerdo con los objetivos definidos por la organización. 3. Aprovechan la información de ejecuciones pasadas de BP de la empresa, para mejorar la organización. 4. Aprovechan el conocimiento de las personas involucradas en la organización tienen del funcionamiento de la misma, al tiempo que permiten tomar decisión razonadas sobre por qué se toma realiza una acción u otra. Por otro lado, estas técnicas están orientadas a: ser utilizadas por expertos del negocio, es decir, personas sin formación técnica; contribuir a una mejor comprensión de cómo las acciones realizadas en la organización pueden afectar el logro de los objetivos definidos; y a permitir que información del estado de la organización pueda ser utilizada por terceras aplicaciones. Por último, destacar que las propuestas desarrolladas en el contexto de esta tesis y los ejemplos utilizados para ilustrarlas han sido extraídas de casos de empresas reales

    CIRA annual report FY 2016/2017

    Get PDF
    Reporting period April 1, 2016-March 31, 2017
    corecore