108 research outputs found
Proceedings of the 12th International Conference on Digital Preservation
The 12th International Conference on Digital Preservation (iPRES) was held on November 2-6, 2015 in Chapel Hill, North Carolina, USA. There were 327 delegates from 22 countries. The program included 12 long papers, 15 short papers, 33 posters, 3 demos, 6 workshops, 3 tutorials and 5 panels, as well as several interactive sessions and a Digital Preservation Showcase
Proceedings of the 12th International Conference on Digital Preservation
The 12th International Conference on Digital Preservation (iPRES) was held on November 2-6, 2015 in Chapel Hill, North Carolina, USA. There were 327 delegates from 22 countries. The program included 12 long papers, 15 short papers, 33 posters, 3 demos, 6 workshops, 3 tutorials and 5 panels, as well as several interactive sessions and a Digital Preservation Showcase
Contribution à la convergence d'infrastructure entre le calcul haute performance et le traitement de données à large échelle
The amount of produced data, either in the scientific community or the commercialworld, is constantly growing. The field of Big Data has emerged to handle largeamounts of data on distributed computing infrastructures. High-Performance Computing (HPC) infrastructures are traditionally used for the execution of computeintensive workloads. However, the HPC community is also facing an increasingneed to process large amounts of data derived from high definition sensors andlarge physics apparati. The convergence of the two fields -HPC and Big Data- iscurrently taking place. In fact, the HPC community already uses Big Data tools,which are not always integrated correctly, especially at the level of the file systemand the Resource and Job Management System (RJMS).In order to understand how we can leverage HPC clusters for Big Data usage, andwhat are the challenges for the HPC infrastructures, we have studied multipleaspects of the convergence: We initially provide a survey on the software provisioning methods, with a focus on data-intensive applications. We contribute a newRJMS collaboration technique called BeBiDa which is based on 50 lines of codewhereas similar solutions use at least 1000 times more. We evaluate this mechanism on real conditions and in simulated environment with our simulator Batsim.Furthermore, we provide extensions to Batsim to support I/O, and showcase thedevelopments of a generic file system model along with a Big Data applicationmodel. This allows us to complement BeBiDa real conditions experiments withsimulations while enabling us to study file system dimensioning and trade-offs.All the experiments and analysis of this work have been done with reproducibilityin mind. Based on this experience, we propose to integrate the developmentworkflow and data analysis in the reproducibility mindset, and give feedback onour experiences with a list of best practices.RésuméLa quantité de données produites, que ce soit dans la communauté scientifiqueou commerciale, est en croissance constante. Le domaine du Big Data a émergéface au traitement de grandes quantités de données sur les infrastructures informatiques distribuées. Les infrastructures de calcul haute performance (HPC) sont traditionnellement utilisées pour l’exécution de charges de travail intensives en calcul. Cependant, la communauté HPC fait également face à un nombre croissant debesoin de traitement de grandes quantités de données dérivées de capteurs hautedéfinition et de grands appareils physique. La convergence des deux domaines-HPC et Big Data- est en cours. En fait, la communauté HPC utilise déjà des outilsBig Data, qui ne sont pas toujours correctement intégrés, en particulier au niveaudu système de fichiers ainsi que du système de gestion des ressources (RJMS).Afin de comprendre comment nous pouvons tirer parti des clusters HPC pourl’utilisation du Big Data, et quels sont les défis pour les infrastructures HPC, nousavons étudié plusieurs aspects de la convergence: nous avons d’abord proposé uneétude sur les méthodes de provisionnement logiciel, en mettant l’accent sur lesapplications utilisant beaucoup de données. Nous contribuons a l’état de l’art avecune nouvelle technique de collaboration entre RJMS appelée BeBiDa basée sur 50lignes de code alors que des solutions similaires en utilisent au moins 1000 fois plus.Nous évaluons ce mécanisme en conditions réelles et en environnement simuléavec notre simulateur Batsim. En outre, nous fournissons des extensions à Batsimpour prendre en charge les entrées/sorties et présentons le développements d’unmodèle de système de fichiers générique accompagné d’un modèle d’applicationBig Data. Cela nous permet de compléter les expériences en conditions réellesde BeBiDa en simulation tout en étudiant le dimensionnement et les différentscompromis autours des systèmes de fichiers.Toutes les expériences et analyses de ce travail ont été effectuées avec la reproductibilité à l’esprit. Sur la base de cette expérience, nous proposons d’intégrerle flux de travail du développement et de l’analyse des données dans l’esprit dela reproductibilité, et de donner un retour sur nos expériences avec une liste debonnes pratiques
Proceedings, MSVSCC 2015
The Virginia Modeling, Analysis and Simulation Center (VMASC) of Old Dominion University hosted the 2015 Modeling, Simulation, & Visualization Student capstone Conference on April 16th. The Capstone Conference features students in Modeling and Simulation, undergraduates and graduate degree programs, and fields from many colleges and/or universities. Students present their research to an audience of fellow students, faculty, judges, and other distinguished guests. For the students, these presentations afford them the opportunity to impart their innovative research to members of the M&S community from academic, industry, and government backgrounds. Also participating in the conference are faculty and judges who have volunteered their time to impart direct support to their students’ research, facilitate the various conference tracks, serve as judges for each of the tracks, and provide overall assistance to this conference. 2015 marks the ninth year of the VMASC Capstone Conference for Modeling, Simulation and Visualization. This year our conference attracted a number of fine student written papers and presentations, resulting in a total of 51 research works that were presented. This year’s conference had record attendance thanks to the support from the various different departments at Old Dominion University, other local Universities, and the United States Military Academy, at West Point. We greatly appreciated all of the work and energy that has gone into this year’s conference, it truly was a highly collaborative effort that has resulted in a very successful symposium for the M&S community and all of those involved. Below you will find a brief summary of the best papers and best presentations with some simple statistics of the overall conference contribution. Followed by that is a table of contents that breaks down by conference track category with a copy of each included body of work. Thank you again for your time and your contribution as this conference is designed to continuously evolve and adapt to better suit the authors and M&S supporters.
Dr.Yuzhong Shen Graduate Program Director, MSVE Capstone Conference Chair
John ShullGraduate Student, MSVE Capstone Conference Student Chai
Advanced meta-heuristic approaches and their application to operational optimization in forest wildfire management
La última década ha sido testigo de un aumento vertiginoso de la cantidad y frecuencia de desastres a gran escala, principalmente debido a los fenómenos devastadores derivados de paradigmas climatológicos y ambientales a gran escala como el calentamiento global. De entre ellos son las inundaciones, huracanes y terremotos los desastres de mayor frecuencia de aparición y fatales consecuencias durante este período, tal como certifican los más de 20.000 muertos a consecuencia de un terremoto en la región de Gujarat (India) en 2001, o las 230.000 y 316.000 pérdidas humanas de los terremotos de Indonesia y Haití en 2004 y 2010, respectivamente. En este contexto, el enfoque de esta tesis se centra en una casuística concreta de desastre a media-gran escala cuya frecuencia y severidad han crecido de manera igualmente preocupante en los últimos tiempos: los incendios, definidos como un fuego de grandes dimensiones no voluntariamente iniciado por el ser humano, y que afecta a aquello que no está destinado a quemarse. Pese a la diversidad de iniciativas, campañas y procedimientos orientados a la minimización del impacto y las consecuencias de los incendios, varios sucesos fatales acontecidos en los últimos años han puesto en duda la efectividad de las políticas actuales de gestión de recursos contra incendios como aeronaves, vehículos terrestres, equipamiento de comunicaciones radio, logística de abastecimiento y las brigadas desplegadas en el área afectada. Un ejemplo manifiesto de esta falta de eficacia es la muerte de once bomberos ocurrida en un incendio de 130 kilómetros cuadrados en la zona de Guadalajara (España) en 2005, oficialmente atribuida a una deficiente coordinación entre el puesto de mando y los equipos de extinción debida, fundamentalmente, a problemas de cobertura en los sistemas de radiocomunicación. Aunque la causa de esta falta de coordinación ha sido cuestionada por las autoridades y los agentes involucrados desde entonces, lo cierto es que este suceso supone un ejemplo evidente de la necesidad de estudiar y desarrollar herramientas algorítmicas que ayuden al personal de comandancia a ejecutar óptimamente sus tareas de coordinación y control. Desafortunadamente la coyuntura de crisis económica mundial que azota con especial fuerza los países del Sur de Europa ha mermado dramáticamente las partidas presupuestarias para la prevención y extinción de incendios en beneficio de programas nacionales de reducción de déficit. A consecuencia de estos recortes, el coste ha irrumpido con fuerza como un criterio de extrema relevancia en la planificación operativa de este tipo de desastres: desde la perspectiva de un problema de optimización, los recursos contra incendios son actualmente gestionados con el objetivo fundamental de maximizar su efectividad contra incendios, sujeto a la restricción de que el coste agregado asociado a las decisiones tomadas no supere un determinado umbral presupuestario. Pese a que estas restricciones de coste están bien acotadas, en la práctica la mayoría de los procedimientos de gestión de recursos contra incendios están fuertemente determinados por la capacidad limitada del ser humano para tomar decisiones ágiles en escenarios de elevada complejidad y heterogeneidad. Por los motivos anteriormente expuestos, la presente Tesis doctoral propone la adopción de algoritmos meta-heurísticos para solventar eficientemente problemas de optimización que modelan procesos de gestión de recursos contra incendios. Esta familia de algoritmos de optimización es capaz de explorar el espacio solución de un problema dado merced a la aplicación iterativa de mecanismos inteligentes de búsqueda explorativa y explotativa, produciendo soluciones que sacrifican calidad por una complejidad computacional menor en comparación con la resultante de procesos determinísticos de búsqueda exhaustiva. En particular la Tesis plantea la búsqueda por harmonía (del inglés Harmony Search) como la técnica meta-heurística de optimización común a las herramientas diseñadas para la gestión de recursos en dos escenarios diferentes: ? El primer escenario analizado contempla el despliegue óptimo de redes de comunicación inalámbrica para la coordinación de equipos de extinción en incendios forestales de gran escala. Desde el punto de vista formal, el problema del despliegue dinámico de retransmisores que caracteriza matemáticamente este escenario consiste en estimar el número y localización de los retransmisores radio que deben ser desplegados en el área afectada por el incendio, de tal modo que el número de nodos móviles (i.e. recursos) con cobertura radio es maximizado a un coste del despliegue mínimo. A fin de reflejar la diversidad de equipamiento de retransmisión radio existente en la realidad, este problema es reformulado para considerar modelos de retransmisor con diferentes características de cobertura y coste. El problema resultante es resuelto de manera eficiente mediante sendos algoritmos mono- y bi-objetivo que conjugan 1) la Búsqueda por Harmonía como método de búsqueda global; y 2) una versión modificada del algoritmo de agrupación K-means como técnica de búsqueda local. El desempeño de los métodos propuestos es evaluado mediante experimentos numéricos basados en datos estadísticos reales de la Comunidad de Castilla la Mancha (España), merced a cuyos resultados queda certificada su practicidad a la hora de desplegar infraestructura de comunicación en este tipo de desastres. ? El segundo escenario bajo estudio se concentra en el despliegue y planificación óptima de vehículos aéreos de extinción de incendios basados en estimaciones predictivas del riesgo de incendio de una cierta área geográfica. De manera enunciativa, el problema subyacente busca la asignación de recursos a aeródromos y aeropuertos con restricciones de capacidad que maximice la utilidad de dichos recursos en relación al riesgo de incendio y minimice, a su vez, el coste de ejecutar dicha asignación. La formulación de este problema también considera, dentro de la definición de dicha función de utilidad, la distancia relativa entre aeropuerto, punto de potencial riesgo de incendio y el recurso acuífero (lago, río o mar) más cercano. Para su resolución eficiente se propone el uso de algoritmos de optimización basados, de nuevo, en la Búsqueda por Harmonía, incorporando además métodos voraces de reparación capacitiva. La aplicabilidad práctica de estos métodos es validada mediante experimentos numéricos en escenarios sintéticos y un caso práctico que incluye valores reales del riesgo de incendio, posiciones de recursos acuíferos e instalaciones aeroportuarias. En resumen, esta Tesis evidencia, desde un punto de vista práctico, que la meta-heurística moderna supone una solución algorítmica computacionalmente eficiente para tratar problemas de gestión de recursos contra incendios sujetos a restricciones de coste
Scientific Advances in STEM
Following a previous topic (Scientific advances in STEM: from professors to students; https://www.mdpi.com/topics/advances_stem), this new topic aims to highlight the importance of establishing collaborations among research groups from different disciplines, combining the scientific knowledge from basic to applied research as well as taking advantage of different research facilities. Fundamental science helps us to understand phenomenological basics, while applied science focuses on products and technology developments, highlighting the need to perform a transference of knowledge to society and the industrial sector
Advanced meta-heuristic approaches and their application to operational optimization in forest wildfire management
La última década ha sido testigo de un aumento vertiginoso de la cantidad y frecuencia de desastres a gran escala, principalmente debido a los fenómenos devastadores derivados de paradigmas climatológicos y ambientales a gran escala como el calentamiento global. De entre ellos son las inundaciones, huracanes y terremotos los desastres de mayor frecuencia de aparición y fatales consecuencias durante este período, tal como certifican los más de 20.000 muertos a consecuencia de un terremoto en la región de Gujarat (India) en 2001, o las 230.000 y 316.000 pérdidas humanas de los terremotos de Indonesia y Haití en 2004 y 2010, respectivamente. En este contexto, el enfoque de esta tesis se centra en una casuística concreta de desastre a media-gran escala cuya frecuencia y severidad han crecido de manera igualmente preocupante en los últimos tiempos: los incendios, definidos como un fuego de grandes dimensiones no voluntariamente iniciado por el ser humano, y que afecta a aquello que no está destinado a quemarse. Pese a la diversidad de iniciativas, campañas y procedimientos orientados a la minimización del impacto y las consecuencias de los incendios, varios sucesos fatales acontecidos en los últimos años han puesto en duda la efectividad de las políticas actuales de gestión de recursos contra incendios como aeronaves, vehículos terrestres, equipamiento de comunicaciones radio, logística de abastecimiento y las brigadas desplegadas en el área afectada. Un ejemplo manifiesto de esta falta de eficacia es la muerte de once bomberos ocurrida en un incendio de 130 kilómetros cuadrados en la zona de Guadalajara (España) en 2005, oficialmente atribuida a una deficiente coordinación entre el puesto de mando y los equipos de extinción debida, fundamentalmente, a problemas de cobertura en los sistemas de radiocomunicación. Aunque la causa de esta falta de coordinación ha sido cuestionada por las autoridades y los agentes involucrados desde entonces, lo cierto es que este suceso supone un ejemplo evidente de la necesidad de estudiar y desarrollar herramientas algorítmicas que ayuden al personal de comandancia a ejecutar óptimamente sus tareas de coordinación y control. Desafortunadamente la coyuntura de crisis económica mundial que azota con especial fuerza los países del Sur de Europa ha mermado dramáticamente las partidas presupuestarias para la prevención y extinción de incendios en beneficio de programas nacionales de reducción de déficit. A consecuencia de estos recortes, el coste ha irrumpido con fuerza como un criterio de extrema relevancia en la planificación operativa de este tipo de desastres: desde la perspectiva de un problema de optimización, los recursos contra incendios son actualmente gestionados con el objetivo fundamental de maximizar su efectividad contra incendios, sujeto a la restricción de que el coste agregado asociado a las decisiones tomadas no supere un determinado umbral presupuestario. Pese a que estas restricciones de coste están bien acotadas, en la práctica la mayoría de los procedimientos de gestión de recursos contra incendios están fuertemente determinados por la capacidad limitada del ser humano para tomar decisiones ágiles en escenarios de elevada complejidad y heterogeneidad. Por los motivos anteriormente expuestos, la presente Tesis doctoral propone la adopción de algoritmos meta-heurísticos para solventar eficientemente problemas de optimización que modelan procesos de gestión de recursos contra incendios. Esta familia de algoritmos de optimización es capaz de explorar el espacio solución de un problema dado merced a la aplicación iterativa de mecanismos inteligentes de búsqueda explorativa y explotativa, produciendo soluciones que sacrifican calidad por una complejidad computacional menor en comparación con la resultante de procesos determinísticos de búsqueda exhaustiva. En particular la Tesis plantea la búsqueda por harmonía (del inglés Harmony Search) como la técnica meta-heurística de optimización común a las herramientas diseñadas para la gestión de recursos en dos escenarios diferentes: ? El primer escenario analizado contempla el despliegue óptimo de redes de comunicación inalámbrica para la coordinación de equipos de extinción en incendios forestales de gran escala. Desde el punto de vista formal, el problema del despliegue dinámico de retransmisores que caracteriza matemáticamente este escenario consiste en estimar el número y localización de los retransmisores radio que deben ser desplegados en el área afectada por el incendio, de tal modo que el número de nodos móviles (i.e. recursos) con cobertura radio es maximizado a un coste del despliegue mínimo. A fin de reflejar la diversidad de equipamiento de retransmisión radio existente en la realidad, este problema es reformulado para considerar modelos de retransmisor con diferentes características de cobertura y coste. El problema resultante es resuelto de manera eficiente mediante sendos algoritmos mono- y bi-objetivo que conjugan 1) la Búsqueda por Harmonía como método de búsqueda global; y 2) una versión modificada del algoritmo de agrupación K-means como técnica de búsqueda local. El desempeño de los métodos propuestos es evaluado mediante experimentos numéricos basados en datos estadísticos reales de la Comunidad de Castilla la Mancha (España), merced a cuyos resultados queda certificada su practicidad a la hora de desplegar infraestructura de comunicación en este tipo de desastres. ? El segundo escenario bajo estudio se concentra en el despliegue y planificación óptima de vehículos aéreos de extinción de incendios basados en estimaciones predictivas del riesgo de incendio de una cierta área geográfica. De manera enunciativa, el problema subyacente busca la asignación de recursos a aeródromos y aeropuertos con restricciones de capacidad que maximice la utilidad de dichos recursos en relación al riesgo de incendio y minimice, a su vez, el coste de ejecutar dicha asignación. La formulación de este problema también considera, dentro de la definición de dicha función de utilidad, la distancia relativa entre aeropuerto, punto de potencial riesgo de incendio y el recurso acuífero (lago, río o mar) más cercano. Para su resolución eficiente se propone el uso de algoritmos de optimización basados, de nuevo, en la Búsqueda por Harmonía, incorporando además métodos voraces de reparación capacitiva. La aplicabilidad práctica de estos métodos es validada mediante experimentos numéricos en escenarios sintéticos y un caso práctico que incluye valores reales del riesgo de incendio, posiciones de recursos acuíferos e instalaciones aeroportuarias. En resumen, esta Tesis evidencia, desde un punto de vista práctico, que la meta-heurística moderna supone una solución algorítmica computacionalmente eficiente para tratar problemas de gestión de recursos contra incendios sujetos a restricciones de coste
Recommended from our members
Salience Estimation and Faithful Generation: Modeling Methods for Text Summarization and Generation
This thesis is focused on a particular text-to-text generation problem, automatic summarization, where the goal is to map a large input text to a much shorter summary text. The research presented aims to both understand and tame existing machine learning models, hopefully paving the way for more reliable text-to-text generation algorithms. Somewhat against the prevailing trends, we eschew end-to-end training of an abstractive summarization model, and instead break down the text summarization problem into its constituent tasks. At a high level, we divide these tasks into two categories: content selection, or “what to say” and content realization, or “how to say it” (McKeown, 1985). Within these categories we propose models and learning algorithms for the problems of salience estimation and faithful generation.
Salience estimation, that is, determining the importance of a piece of text relative to some context, falls into a problem of the former category, determining what should be selected for a summary. In particular, we experiment with a variety of popular or novel deep learning models for salience estimation in a single document summarization setting, and design several ablation experiments to gain some insight into which input signals are most important for making predictions. Understanding these signals is critical for designing reliable summarization models.
We then consider a more difficult problem of estimating salience in a large document stream, and propose two alternative approaches using classical machine learning techniques from both unsupervised clustering and structured prediction. These models incorporate salience estimates into larger text extraction algorithms that also consider redundancy and previous extraction decisions.
Overall, we find that when simple, position based heuristics are available, as in single document news or research summarization, deep learning models of salience often exploit them to make predictions, while ignoring the arguably more important content features of the input. In more demanding environments, like stream summarization, where heuristics are unreliable, more semantically relevant features become key to identifying salience content.
In part two, content realization, we assume content selection has already been performed and focus on methods for faithful generation (i.e., ensuring that output text utterances respect the semantics of the input content). Since they can generate very fluent and natural text, deep learning- based natural language generation models are a popular approach to this problem. However, they often omit, misconstrue, or otherwise generate text that is not semantically correct given the input content. In this section, we develop a data augmentation and self-training technique to mitigate this problem. Additionally, we propose a training method for making deep learning-based natural language generation models capable of following a content plan, allowing for more control over the output utterances generated by the model. Under a stress test evaluation protocol, we demonstrate some empirical limits on several neural natural language generation models’ ability to encode and properly realize a content plan.
Finally, we conclude with some remarks on future directions for abstractive summarization outside of the end-to-end deep learning paradigm. Our aim here is to suggest avenues for constructing abstractive summarization systems with transparent, controllable, and reliable behavior when it comes to text understanding, compression, and generation. Our hope is that this thesis inspires more research in this direction, and, ultimately, real tools that are broadly useful outside of the natural language processing community
- …