483 research outputs found
Handling dropout probability estimation in convolution neural networks using meta-heuristics
Deep learning-based approaches have been paramount in recent years, mainly due to their outstanding results in several application domains, ranging from face and object recognition to handwritten digit identification. Convolutional Neural Networks (CNN) have attracted a considerable attention since they model the intrinsic and complex brain working mechanisms. However, one main shortcoming of such models concerns their overfitting problem, which prevents the network from predicting unseen data effectively. In this paper, we address this problem by means of properly selecting a regularization parameter known as Dropout in the context of CNNs using meta-heuristic-driven techniques. As far as we know, this is the first attempt to tackle this issue using this methodology. Additionally, we also take into account a default dropout parameter and a dropout-less CNN for comparison purposes. The results revealed that optimizing Dropout-based CNNs is worthwhile, mainly due to the easiness in finding suitable dropout probability values, without needing to set new parameters empirically
Fidelity-Weighted Learning
Training deep neural networks requires many training samples, but in practice
training labels are expensive to obtain and may be of varying quality, as some
may be from trusted expert labelers while others might be from heuristics or
other sources of weak supervision such as crowd-sourcing. This creates a
fundamental quality versus-quantity trade-off in the learning process. Do we
learn from the small amount of high-quality data or the potentially large
amount of weakly-labeled data? We argue that if the learner could somehow know
and take the label-quality into account when learning the data representation,
we could get the best of both worlds. To this end, we propose
"fidelity-weighted learning" (FWL), a semi-supervised student-teacher approach
for training deep neural networks using weakly-labeled data. FWL modulates the
parameter updates to a student network (trained on the task we care about) on a
per-sample basis according to the posterior confidence of its label-quality
estimated by a teacher (who has access to the high-quality labels). Both
student and teacher are learned from the data. We evaluate FWL on two tasks in
information retrieval and natural language processing where we outperform
state-of-the-art alternative semi-supervised methods, indicating that our
approach makes better use of strong and weak labels, and leads to better
task-dependent data representations.Comment: Published as a conference paper at ICLR 201
Using Deep Neural Networks for Scheduling Resource-Constrained Activity Sequences
Eines der bekanntesten Planungsprobleme stellt die Planung von Aktivitäten
unter Berücksichtigung von Reihenfolgenbeziehungen zwischen diesen
Aktivitäten sowie Ressourcenbeschränkungen dar. In der Literatur ist
dieses Planungsproblem als das ressourcenbeschränkte Projektplanungsproblem
bekannt und wird im Englischen als Resource-Constrained Project
Scheduling Problem oder kurz RCPSP bezeichnet. Das Ziel dieses Problems
besteht darin, die Bearbeitungszeit einer Aktivitätsfolge zu minimieren,
indem festgelegt wird, wann jede einzelne Aktivität beginnen soll, ohne
dass die Ressourcenbeschränkungen überschritten werden. Wenn die Bearbeitungsdauern
der Aktivitäten bekannt und deterministisch sind, können
die Startzeiten der Aktivitäten à priori definiert werden, ohne dass die
Gefahr besteht, dass der Zeitplan unausführbar wird. Da jedoch die Bearbeitungsdauern
der Aktivitäten häufig nicht deterministisch sind, sondern auf
Schätzungen von Expertengruppen oder historischen Daten basieren, können
die realen Bearbeitungsdauern von den geschätzten abweichen. In diesem Fall
ist eine reaktive Planungsstrategie zu bevorzugen. Solch eine reaktive Strategie
legt die Startzeiten der einzelnen Aktivitäten nicht zu Beginn des Projektes
fest, sondern erst unmittelbar an jedem Entscheidungspunkt im Projekt, also
zu Beginn des Projektes und immer dann wenn eine oder mehrere Aktivitäten
abgeschlossen und die beanspruchten Ressourcen frei werden.
In dieser Arbeit wird eine neue reaktive Planungsstrategie für das
ressourcenbeschränkte Projektplanungsproblem vorgestellt. Im Gegensatz zu
anderen Literaturbeiträgen, in denen exakte, heuristische und meta-heuristische
Methoden zur Anwendung kommen, basiert der in dieser Arbeit aufgestellte
Lösungsansatz auf künstlichen neuronalen Netzen und maschinellem Lernen.
Die neuronalen Netze verarbeiten die Informationen, die den aktuellen Zustand
der Aktivitätsfolge beschreiben, und erzeugen daraus Prioritätswerte für
die Aktivitäten, die im aktuellen Entscheidungspunkt gestartet werden können.
Das maschinelle Lernen und insbesondere das überwachte Lernen werden für das
Trainieren der neuronalen Netze mit beispielhaften Trainingsdaten angewendet,
wobei die Trainingsdaten mit Hilfe einer Simulation erzeugt wurden.
Sechs verschiedene neuronale Netzwerkstrukturen werden in dieser Arbeit betrachtet.
Diese Strukturen unterscheiden sich sowohl in der ihnen zur Verfügung
gestellten Eingabeinformation als auch der Art des neuronalen Netzes, das diese
Information verarbeitet. Es werden drei Arten von neuronalen Netzen betrachtet.
Diese sind neuronale Netze mit vollständig verbundenen Schichten, 1-
dimensionale faltende neuronale Netze und 2-dimensionale neuronale faltende
Netze. Darüber hinaus werden innerhalb jeder einzelnen Netzwerkstruktur verschiedene
Hyperparameter, z.B. die Lernrate, Anzahl der Lernepochen, Anzahl
an Schichten und Anzahl an Neuronen per Schicht, mittels einer Bayesischen Optimierung
abgestimmt. Während des Abstimmens der Hyperparameter wurden
außerdem Bereiche für die Hyperparameter identifiziert, die zur Verbesserung
der Leistungen genutzt werden sollten.
Das am besten trainierte Netzwerk wird dann für den Vergleich mit anderen
vierunddreißig reaktiven heuristischen Methoden herangezogen. Die Ergebnisse
dieses Vergleichs zeigen, dass der in dieser Arbeit vorgeschlagene Ansatz
in Bezug auf die Minimierung der Gesamtdauer der Aktivitätsfolge die meisten
Heuristiken übertrifft. Lediglich 3 Heuristiken erzielen kürzere Gesamtdauern
als der Ansatz dieser Arbeit, jedoch sind deren Rechenzeiten um viele
Größenordnungen länger.
Eine Annahme in dieser Arbeit besteht darin, dass während der Ausführung
der Aktivitäten Abweichungen bei den Aktivitätsdauern auftreten können,
obwohl die Aktivitätsdauern generell als deterministisch modelliert werden.
Folglich wird eine Sensitivitätsanalyse durchgeführt, um zu prüfen, ob die
vorgeschlagene reaktive Planungsstrategie auch dann kompetitiv bleibt, wenn
die Aktivitätsdauern von den angenommenen Werten abweichen
The buttressed walls problem: An application of a hybrid clustering particle swarm optimization algorithm
[EN] The design of reinforced earth retaining walls is a combinatorial optimization problem of interest due to practical applications regarding the cost savings involved in the design and the optimization in the amount of CO2 emissions generated in its construction. On the other hand, this problem presents important challenges in computational complexity since it involves 32 design variables; therefore we have in the order of 10^20 possible combinations. In this article, we propose a hybrid algorithm in which the particle swarm optimization method is integrated that solves optimization problems in continuous spaces with the db-scan clustering technique, with the aim of addressing the combinatorial problem of the design of reinforced earth retaining walls. This algorithm optimizes two objective functions: the carbon emissions embedded and the economic cost of reinforced concrete walls. To assess the contribution of the db-scan operator in the optimization process, a random operator was designed. The best solutions, the averages, and the interquartile ranges of the obtained distributions are compared. The db-scan algorithm was then compared with a hybrid version that uses k-means as the discretization method and with a discrete implementation of the harmony search algorithm. The results indicate that the db-scan operator significantly improves the quality of the solutions and that the proposed metaheuristic shows competitive results with respect to the harmony search algorithm.The first author was supported by the Grant CONICYT/FONDECYT/INICIACION/11180056, the other two authors were supported by the Spanish Ministry of Economy and Competitiveness, along with FEDER funding (Project: BIA2017-85098-R).Garcia, J.; Martí Albiñana, JV.; Yepes, V. (2020). The buttressed walls problem: An application of a hybrid clustering particle swarm optimization algorithm. Mathematics. 8(6):862-01-862-22. https://doi.org/10.3390/math8060862S862-01862-228
Few-shot Conformal Prediction with Auxiliary Tasks
We develop a novel approach to conformal prediction when the target task has
limited data available for training. Conformal prediction identifies a small
set of promising output candidates in place of a single prediction, with
guarantees that the set contains the correct answer with high probability. When
training data is limited, however, the predicted set can easily become unusably
large. In this work, we obtain substantially tighter prediction sets while
maintaining desirable marginal guarantees by casting conformal prediction as a
meta-learning paradigm over exchangeable collections of auxiliary tasks. Our
conformalization algorithm is simple, fast, and agnostic to the choice of
underlying model, learning algorithm, or dataset. We demonstrate the
effectiveness of this approach across a number of few-shot classification and
regression tasks in natural language processing, computer vision, and
computational chemistry for drug discovery.Comment: ICML camera read
Generative Adversarial Networks (GANs): Challenges, Solutions, and Future Directions
Generative Adversarial Networks (GANs) is a novel class of deep generative
models which has recently gained significant attention. GANs learns complex and
high-dimensional distributions implicitly over images, audio, and data.
However, there exists major challenges in training of GANs, i.e., mode
collapse, non-convergence and instability, due to inappropriate design of
network architecture, use of objective function and selection of optimization
algorithm. Recently, to address these challenges, several solutions for better
design and optimization of GANs have been investigated based on techniques of
re-engineered network architectures, new objective functions and alternative
optimization algorithms. To the best of our knowledge, there is no existing
survey that has particularly focused on broad and systematic developments of
these solutions. In this study, we perform a comprehensive survey of the
advancements in GANs design and optimization solutions proposed to handle GANs
challenges. We first identify key research issues within each design and
optimization technique and then propose a new taxonomy to structure solutions
by key research issues. In accordance with the taxonomy, we provide a detailed
discussion on different GANs variants proposed within each solution and their
relationships. Finally, based on the insights gained, we present the promising
research directions in this rapidly growing field.Comment: 42 pages, Figure 13, Table
Real-Time Object Tracking via Meta-Learning: Efficient Model Adaptation and One-Shot Channel Pruning
We propose a novel meta-learning framework for real-time object tracking with
efficient model adaptation and channel pruning. Given an object tracker, our
framework learns to fine-tune its model parameters in only a few iterations of
gradient-descent during tracking while pruning its network channels using the
target ground-truth at the first frame. Such a learning problem is formulated
as a meta-learning task, where a meta-tracker is trained by updating its
meta-parameters for initial weights, learning rates, and pruning masks through
carefully designed tracking simulations. The integrated meta-tracker greatly
improves tracking performance by accelerating the convergence of online
learning and reducing the cost of feature computation. Experimental evaluation
on the standard datasets demonstrates its outstanding accuracy and speed
compared to the state-of-the-art methods.Comment: 9 pages, 5 figures, AAAI 2020 accepte
- …