22 research outputs found
Conceptual data sampling for image segmentation- an application for breast cancer images
At the present time data analytics have become a buzzword for the in-
formation technology sector. In an attempt to analyze data; one may follow
various paths. Be it deploying sophisticated technologies to process big data or
using commodity hardware while applying data reduction/sampling techniques
to draw meaningful insights from a data. In this thesis, we aim to reduce data
size in terms of th e number of tuples/objects for a given data. Our method
has driven its roots from formal concept analysis (FCA); which is a mathemat-
ical framework for data analysis. The proposed transformation is preserving
functional dependencies/implications in a database. Consequently, we can gen-
erate a much smaller data sample that is able to help in making decisions. In
this study, we analyze a variety of reduction methods in order to recognize
the best one(s), including randomized object selection procedures. The accu-
racy of the decision s made on generated sample is comparable to accuracy of
the decision made of whole/original data. To illustrate the concept we have
chosen data from medical image domain. The data used for experimentation
contains microscopic images of breast cancer that need to be segmented into
two categories; i.e. benign or malignant. Extensive set of experiments have
been performed to show the strength of the proposed reduction method
Determining Additional Modulus of Subgarde Reaction Based on Tolerable Settlement for the Nailed-slab System Resting on Soft Clay.
AbstractâNailed-slab System is a proposed alternative
solution for rigid pavement problem on soft soils. Equivalent
modulus of subgrade reaction (kâ) can be used in designing of
nailed-slab system. This modular is the cumulative of modulus of
subgrade reaction from plate load test (k) and additional
modulus of subgrade reaction due to pile installing (ââââk). A recent
method has used reduction of pile resistance approach in
determining ââââk. The relative displacement between pile and soils,
and reduction of pile resistance has been identified. In fact,
determining of reduction of pile resistance is difficult. This paper
proposes an approach by considering tolerable settlement of rigid
pavement. Validation is carried out with respect to a loading test
of nailed-slab models. The models are presented as strip section
of rigid pavement. The theory of beams on elastic foundation is
used to calculate the slab deflection by using kâ. Proposed
approach can results in deflection prediction close to observed
one. In practice, the Nailed-slab System would be constructed by
multiple-row piles. Designing this system based on one-pile row
analysis will give more safety design and will consume less time
Evolving machine learning and deep learning models using evolutionary algorithms
Despite the great success in data mining, machine learning and deep learning models are yet subject to material obstacles when tackling real-life challenges, such as feature selection, initialization sensitivity, as well as hyperparameter optimization. The prevalence of these obstacles has severely constrained conventional machine learning and deep learning methods from fulfilling their potentials. In this research, three evolving machine learning and one evolving deep learning models are proposed to eliminate above bottlenecks, i.e. improving model initialization, enhancing feature representation, as well as optimizing model configuration, respectively, through hybridization between the advanced evolutionary algorithms and the conventional ML and DL methods.
Specifically, two Firefly Algorithm based evolutionary clustering models are proposed to optimize cluster centroids in K-means and overcome initialization sensitivity as well as local stagnation. Secondly, a Particle Swarm Optimization based evolving feature selection model is developed for automatic identification of the most effective feature subset and reduction of feature dimensionality for tackling classification problems. Lastly, a Grey Wolf Optimizer based evolving Convolutional Neural Network-Long Short-Term Memory method is devised for automatic generation of the optimal topological and learning configurations for Convolutional Neural Network-Long Short-Term Memory networks to undertake multivariate time series prediction problems.
Moreover, a variety of tailored search strategies are proposed to eliminate the intrinsic limitations embedded in the search mechanisms of the three employed evolutionary algorithms, i.e. the dictation of the global best signal in Particle Swarm Optimization, the constraint of the diagonal movement in Firefly Algorithm, as well as the acute contraction of search territory in Grey Wolf Optimizer, respectively. The remedy strategies include the diversification of guiding signals, the adaptive nonlinear search parameters, the hybrid position updating mechanisms, as well as the enhancement of population leaders. As such, the enhanced Particle Swarm Optimization, Firefly Algorithm, and Grey Wolf Optimizer variants are more likely to attain global optimality on complex search landscapes embedded in data mining problems, owing to the elevated search diversity as well as the achievement of advanced trade-offs between exploration and exploitation
Democratizing machine learning
Modelle des maschinellen Lernens sind zunehmend in der Gesellschaft verankert, oft in Form von automatisierten Entscheidungsprozessen. Ein wesentlicher Grund dafĂŒr ist die verbesserte ZugĂ€nglichkeit von Daten, aber auch von Toolkits fĂŒr maschinelles Lernen, die den Zugang zu Methoden des maschinellen Lernens fĂŒr Nicht-Experten ermöglichen.
Diese Arbeit umfasst mehrere BeitrĂ€ge zur Demokratisierung des Zugangs zum maschinellem Lernen, mit dem Ziel, einem breiterem Publikum Zugang zu diesen Technologien zu er- möglichen. Die BeitrĂ€ge in diesem Manuskript stammen aus mehreren Bereichen innerhalb dieses weiten Gebiets. Ein groĂer Teil ist dem Bereich des automatisierten maschinellen Lernens (AutoML) und der Hyperparameter-Optimierung gewidmet, mit dem Ziel, die oft mĂŒhsame Aufgabe, ein optimales Vorhersagemodell fĂŒr einen gegebenen Datensatz zu finden, zu vereinfachen. Dieser Prozess besteht meist darin ein fĂŒr vom Benutzer vorgegebene Leistungsmetrik(en) optimales Modell zu finden. Oft kann dieser Prozess durch Lernen aus vorhergehenden Experimenten verbessert oder beschleunigt werden.
In dieser Arbeit werden drei solcher Methoden vorgestellt, die entweder darauf abzielen, eine feste Menge möglicher Hyperparameterkonfigurationen zu erhalten, die wahrscheinlich gute Lösungen fĂŒr jeden neuen Datensatz enthalten, oder Eigenschaften der DatensĂ€tze zu nutzen, um neue Konfigurationen vorzuschlagen.
DarĂŒber hinaus wird eine Sammlung solcher erforderlichen Metadaten zu den Experimenten vorgestellt, und es wird gezeigt, wie solche Metadaten fĂŒr die Entwicklung und als Testumgebung fĂŒr neue Hyperparameter- Optimierungsmethoden verwendet werden können. Die weite Verbreitung von ML-Modellen in vielen Bereichen der Gesellschaft erfordert gleichzeitig eine genauere Untersuchung der Art und Weise, wie aus Modellen abgeleitete automatisierte Entscheidungen die Gesellschaft formen, und ob sie möglicherweise Individuen oder einzelne Bevölkerungsgruppen benachteiligen. In dieser Arbeit wird daher ein AutoML-Tool vorgestellt, das es ermöglicht, solche Ăberlegungen in die Suche nach einem optimalen Modell miteinzubeziehen. Diese Forderung nach Fairness wirft gleichzeitig die Frage auf, ob die Fairness eines Modells zuverlĂ€ssig geschĂ€tzt werden kann, was in einem weiteren Beitrag in dieser Arbeit untersucht wird. Da der Zugang zu Methoden des maschinellen Lernens auch stark vom Zugang zu Software und Toolboxen abhĂ€ngt, sind mehrere BeitrĂ€ge in Form von Software Teil dieser Arbeit. Das R-Paket mlr3pipelines ermöglicht die Einbettung von Modellen in sogenan- nte Machine Learning Pipelines, die Vor- und Nachverarbeitungsschritte enthalten, die im maschinellen Lernen und AutoML hĂ€ufig benötigt werden. Das mlr3fairness R-Paket hingegen ermöglicht es dem Benutzer, Modelle auf potentielle Benachteiligung hin zu ĂŒber- prĂŒfen und diese durch verschiedene Techniken zu reduzieren. Eine dieser Techniken, multi-calibration wurde darĂŒberhinaus als seperate Software veröffentlicht.Machine learning artifacts are increasingly embedded in society, often in the form of automated decision-making processes. One major reason for this, along with methodological improvements, is the increasing accessibility of data but also machine learning toolkits that enable access to machine learning methodology for non-experts. The core focus of this thesis is exactly this â democratizing access to machine learning in order to enable a wider audience to benefit from its potential.
Contributions in this manuscript stem from several different areas within this broader area. A major section is dedicated to the field of automated machine learning (AutoML) with the goal to abstract away the tedious task of obtaining an optimal predictive model for a given dataset. This process mostly consists of finding said optimal model, often through hyperparameter optimization, while the user in turn only selects the appropriate performance metric(s) and validates the resulting models. This process can be improved or sped up by learning from previous experiments.
Three such methods one with the goal to obtain a fixed set of possible hyperparameter configurations that likely contain good solutions for any new dataset and two using dataset characteristics to propose new configurations are presented in this thesis.
It furthermore presents a collection of required experiment metadata and how such meta-data can be used for the development and as a test bed for new hyperparameter optimization methods. The pervasion of models derived from ML in many aspects of society simultaneously calls for increased scrutiny with respect to how such models shape society and the eventual biases they exhibit. Therefore, this thesis presents an AutoML tool that allows incorporating fairness considerations into the search for an optimal model. This requirement for fairness simultaneously poses the question of whether we can reliably estimate a modelâs fairness, which is studied in a further contribution in this thesis. Since access to machine learning methods also heavily depends on access to software and toolboxes, several contributions in the form of software are part of this thesis. The mlr3pipelines R package allows for embedding models in so-called machine learning pipelines that include pre- and postprocessing steps often required in machine learning and AutoML. The mlr3fairness R package on the other hand enables users to audit models for potential biases as well as reduce those biases through different debiasing techniques. One such technique, multi-calibration is published as a separate software package, mcboost
Klassifikation morphologischer und pathologischer Strukturen in koronaren GefĂ€Ăen auf Basis intravaskulĂ€rer Ultraschallaufnahmen zur klinischen Anwendung in einem IVB-System
Erkrankungen des Herz-Kreislaufsystems sind in Deutschland fĂŒr fast 50% der TodesfĂ€lle verantwortlich. Insbesondere die Arteriosklerose (vulgo: âArterienverkalkungâ) ist dabei ein dominierendes Krankheitsbild. So ist es auch nicht verwunderlich, dass die Arteriosklerose seit den AnfĂ€ngen der wissenschaftlichen Medizin ein Feld fĂŒr umfangreiche Untersuchungen gewesen ist. Speziell durch den technischen Fortschritt bildgebender Verfahren war es möglich neuartige Diagnose- und Therapiemethoden zu entwickeln. Dabei hat sich gerade der intravaskulĂ€re Ultraschall zu einem Goldstandard in der Diagnose arteriosklerotischer Erkrankungen und, in Kombination mit der intravaskulĂ€ren Brachytherapie, zu einer Erfolg versprechenden Basistechnik fĂŒr therapeutische MaĂnahmen entwickelt. Grundvoraussetzung fast jeder bildbasierten Intervention ist aber die Separierung der Bilddaten in anatomisch und pathologisch differenzierte, saliente Regionen. In Anbetracht zunehmender, umfangreicherer Datenmengen kann eine derartige Aufarbeitung nur rechnergestĂŒtzt durch Problem adaptierte Klassifikationsalgorithmen gewĂ€hrleistet werden.
Daher war es das Ziel dieser Arbeit, neue Methoden zur Merkmalsextraktion und Algorithmen zur Klassifikation morphologischer und pathologischer Strukturen in koronaren GefĂ€Ăen bereitzustellen. Aus der initialen Fragestellung wurde zudem zeitnah deutlich, dass das Forschungsvorhaben AnknĂŒpfungspunkte zu weiteren hochgradig relevanten inter- und intradisziplinĂ€ren Forschungsthemen, beispielsweise der Histologie, Systembiologie oder Chemietechnik, aufweist. Aber auch vonseiten der Anwendungsszenarien wurden teilweise völlig neue, innovative Wege beschritten. Exemplarisch sei ein E-Learning-Ansatz zur âĂbersetzungâ digitaler Bilddaten in haptisch erfahrbare Reliefs fĂŒr blinde und sehbehinderte SchĂŒlerinnen und SchĂŒler genannt. In Anbetracht dieser partiell divergierenden Sichtweisen war auch die generalisierte, von der expliziten Fragestellung abstrahierte Umsetzung eine Ausrichtung der Arbeit.
Dieser Intention folgend wurden drei wesentliche methodische und konzeptionelle Entwicklungen innerhalb der Arbeit realisiert: ein Expertensystem zur Approximation arterieller Kompartimente mittels unscharfer elliptischer Templates, ein neuartiger, effizienter Ansatz zur signaltheoretischen Extraktion textureller Merkmale und die Etablierung maschinelle Lernverfahren unter Integration von a priori Wissen. Ăber eine konsequente Integration statistischer GĂŒtemaĂe konnte zudem eine ausgeprĂ€gte RĂŒckkopplung zwischen Klassifikations- und BewertungsansĂ€tzen gewĂ€hrleistet werden. Gemeinsam ist allen AnsĂ€tzen das Ansinnen, trotz hoch anwendungsbezogener Umsetzungen, die fortwĂ€hrende PortabilitĂ€t zu beachten. In einer ĂŒbergeordneten Abstraktion kann die Intention der Arbeit somit auch in der âgeneralisierten Nutzung signaltheoretischer Merkmale zur Klassifikation heterogener, durch texturelle AusprĂ€gungen zu differenzierende Kompartimente mittels maschineller Lernverfahrenâ verstanden werden
New Fundamental Technologies in Data Mining
The progress of data mining technology and large public popularity establish a need for a comprehensive text on the subject. The series of books entitled by "Data Mining" address the need by presenting in-depth description of novel mining algorithms and many useful applications. In addition to understanding each section deeply, the two books present useful hints and strategies to solving problems in the following chapters. The contributing authors have highlighted many future research directions that will foster multi-disciplinary collaborations and hence will lead to significant development in the field of data mining
Comparative Analysis of Student Learning: Technical, Methodological and Result Assessing of PISA-OECD and INVALSI-Italian Systems .
PISA is the most extensive international survey promoted by the OECD in the field of education, which measures the skills of fifteen-year-old students from more than 80 participating countries every three years. INVALSI are written tests carried out every year by all Italian students in some key moments of the school cycle, to evaluate the levels of some fundamental skills in Italian, Mathematics and English. Our comparison is made up to 2018, the last year of the PISA-OECD survey, even if INVALSI was carried out for the last edition in 2022. Our analysis focuses attention on the common part of the reference populations, which are the 15-year-old students of the 2nd class of secondary schools of II degree, where both
sources give a similar picture of the students