49 research outputs found

    Approximate least trimmed sum of squares fitting and applications in image analysis

    Get PDF
    The least trimmed sum of squares (LTS) regression estimation criterion is a robust statistical method for model fitting in the presence of outliers. Compared with the classical least squares estimator, which uses the entire data set for regression and is consequently sensitive to outliers, LTS identifies the outliers and fits to the remaining data points for improved accuracy. Exactly solving an LTS problem is NP-hard, but as we show here, LTS can be formulated as a concave minimization problem. Since it is usually tractable to globally solve a convex minimization or concave maximization problem in polynomial time, inspired by [1], we instead solve LTS’ approximate complementary problem, which is convex minimization. We show that this complementary problem can be efficiently solved as a second order cone program. We thus propose an iterative procedure to approximately solve the original LTS problem. Our extensive experiments demonstrate that the proposed method is robust, efficient and scalable in dealing with problems where data are contaminated with outliers. We show several applications of our method in image analysis.Fumin Shen, Chunhua Shen, Anton van den Hengel and Zhenmin Tan

    An adversarial optimization approach to efficient outlier removal

    Get PDF
    This paper proposes a novel adversarial optimization approach to efficient outlier removal in computer vision. We characterize the outlier removal problem as a game that involves two players of conflicting interests, namely, optimizer and outlier. Such an adversarial view not only brings new insights into various existing methods, but also gives rise to a general optimization framework that provably unifies them. Under the proposed framework, we develop a new outlier removal approach that is able to offer a much needed control over the trade-off between reliability and speed, which is otherwise not available in previous methods. The proposed approach is driven by a mixed-integer minmax (convex-concave) optimization process. Although a minmax problem is generally not amenable to efficient optimization, we show that for some commonly used vision objective functions, an equivalent Linear Program reformulation exists. We demonstrate our method on two representative multiview geometry problems. Experiments on real image data illustrate superior practical performance of our method over recent techniques.Jin Yu, Anders Eriksson, Tat-Jun Chin, David Suterhttp://www.iccv2011.org

    Efficiency and productivity measurements to analyze farm-level impacts from adoption of biotechnology enhanced soybeans

    Get PDF
    Doctor of PhilosophyDepartment of Agricultural EconomicsAllen M. FeatherstoneThis study focuses on the productivity and on-farm efficiency impacts of adopting biotechnology enhanced soybeans (BES). Previous research suggests the adoption of BES and subsequent time savings resulted in labor allocation to off-farm employment and reduced on-farm efficiency. Using continuous panel data for 129 farms enrolled in the Kansas Farm Management Association (KFMA) with production and financial crop records from 1993 through 2011 that also provided information on their BES adoption experience, this study provides estimates on the technical efficiency, cost efficiency, and Malmquist productivity indexes (MI) with decompositions into efficiency change (EC) and technical change (TC) to provide insights on the impacts of adopting BES for set of sample farms. Using data envelopment analysis to construct nonparametric efficiency frontiers and measurements assuming constant returns-to-scale (CRS) and variable returns-to-scale (VRS) technologies for the farms, this study provides insights on the impact of yield impacts of BES adoption. A biennial Malmquist productivity index (BMI) is developed to consider estimation of the productivity impacts between BES adopters and non-adopters assuming VRS. This analysis used five input categories: Labor, general, direct inputs, maintenance, and energy; and five outputs: corn, soybeans, sorghum, wheat, and other crops. Tobit regression analysis of the panel of Kansas farms provided evidence of a positive impact from adoption of biotechnology enhanced soybeans on on-farm technical efficiency. Kolmogorov-Smirnov goodness-of-fit distributional hypothesis tests showed significant differences between analyzing the farms under CRS and VRS assumptions. T-tests showed a bias existed when assuming CRS if the true underlying technology was VRS in productivity analysis. However, there was not a strong statistically significant difference between the distributions of productivity measures from the underlying populations of BES adopters and non-adopters in the sample of Kansas farms. A revenue-indirect cost efficiency analysis of the sample farms demonstrated that different conclusions were reached under CRS and VRS when considering the differences in the average of the means of estimated efficiency scores and Tobit regression results considering BES adoption. Assuming CRS resulted in positive marginal effects for adopting BES of 0.017 significant at the 5% level. The marginal effect of BES adoption was not statistically significant under VRS

    Performance of Algorithms for Periodic Timetable Optimization

    Get PDF
    During the last 15 years, there have been proposed many solution methods for the important task of constructing periodic timetables for public transportation companies. We first point out the importance of an objective function, where we observe that in particular a linear objective function turns out to be a good compromise between essential practical requirements and computational tractability. Then, we enter into a detailed empirical analysis of various Mixed Integer Programming procedures - such using nodes variables and such using arcs variables - genetic algorithms, simulated annealing and constraint programming. To our knowledge, this is the first comparison of five conceptually different solution approaches

    Integration of passenger satisfaction in railway timetable rescheduling for major disruptions

    Get PDF
    Unexpected disruptions occur for many reasons in railway networks and cause delays, cancellations, and, eventually, passenger inconvenience. This thesis focuses on the railway timetable rescheduling problem from a macroscopic point of view in case of large disruptions, such as track unvailabilities due to, e.g., rolling stock malfunction or adverse weather conditions. Its originality is to consider three objectives when designing the so-called disposition timetable: the passenger satisfaction, the operational cost and the deviation from the undisrupted timetable. These goals are usually incompatible: for instance, the best possible service for the passengers may also be the most expensive option for the railway operator. This inadequacy is the key motivation for this thesis. The problem is formally defined as a multi-objective Integer Linear Program and solved to optimality on realistic instances. In order to understand the trade-offs between the objectives, the three-dimensional Pareto frontier is approximated using epsilon-constraints. The results on a Dutch case study indicate that adopting a demand-oriented approach for the management of disruptions not only is possible, but may lead to significant improvement in passenger satisfaction, associated with a low operational cost of the disposition timetable. For a more efficient investigation of the multiple dimensions of the problem, a heuristic solution algorithm based on adaptive large neighborhood search is also presented. The timetable is optimized using operators inspired directly from recovery strategies used in practice (such as canceling, delaying or rerouting trains, or scheduling additional trains and buses), and from optimization methods (e.g., feasibility restoration operators). Results on a Swiss case study indicate that the proposed solution approach performs well on large-scale problems, in terms of computational time and solution quality. In addition, a flexible network loading framework, defining priorities among passengers for the capacitated passenger assignment problem, is introduced. Being efficient and producing stable aggregate passenger satisfaction indicators (such as average travel time), it is used in an iterative manner for the evaluation from the passenger perspective of the timetable provided by the rescheduling meta-heuristic. The timetable rescheduling problem is a hard problem and this thesis makes significant methodological and practical contributions to the design of passenger-centric disposition timetables. It is the first attempt to explicitly integrate multiple objectives in a single framework for railway timetable rescheduling, as the state-of-the-art usually neglects passenger considerations, or considers them only implicitly. Further, the use of practice-inspired optimization methods allows railway operators to easily implement the results of the proposed framework

    AN ASSESSMENT OF THE IMPACT OF UNDESIRABLE OUTPUTS ON THE PRODUCTIVITY OF UNITED STATES MOTOR CARRIERS

    Get PDF
    The U.S. economy depends heavily on the trucking industry as it moves 70% of the entire nation's freight. With the inclusion of 295billionintrucktradewithCanadaand295 billion in truck trade with Canada and 195.6 billion in truck trade with Mexico in 2007, it is apparent that any disruption in truck traffic will lead to rapid economic instability (ATA Releases: American Trucking Trends 2008 - 2009, 2008). Yet, the critical nature of the trucking industry comes at a societal price. Indeed, undesirable outputs, e.g., truck crashes and associated injuries and fatalities, have very significant economic and human consequences. This dissertation uses Data Envelopment Analysis (DEA) to investigate the impact of undesirable outputs on the productivity of the motor carrier industry during the years 1999-2003. Previous DEA studies at the firm level have focused on the relationship between inputs and desirable outputs. The proposed approach in this dissertation simultaneously considers both the positive and negative outputs. This dissertation addresses two key problems with the DEA analysis technique previously identified by Yang and Pollit (2009): i.e., failure to take into consideration undesirable outputs and the failure to assess the impact of exogenous variables on the DEA scores of individual firms. As a result, this study will provide a new perspective into the productivity of U.S. motor carriers by incorporating both of these considerations into a more comprehensive DEA analysis. It will also provide opportunities to evaluate how individual firms might change their mix of inputs in order to simultaneously maximize desirable outputs and minimize undesirable ones

    CONSTRAINED MULTI-GROUP PROJECT ALLOCATION USING MAHALANOBIS DISTANCE

    Get PDF
    Optimal allocation is one of the most active research areas in operation research using binary integer variables. The allocation of multi constrained projects among several options available along a given planning horizon is an especially significant problem in the general area of item classification. The main goal of this dissertation is to develop an analytical approach for selecting projects that would be most attractive from an economic point of view to be developed or allocated among several options, such as in-house engineers and private contractors (in transportation projects). A relevant limiting resource in addition to the availability of funds is the in-house manpower availability. In this thesis, the concept of Mahalanobis distance (MD) will be used as the classification criterion. This is a generalization of the Euclidean distance that takes into account the correlation of the characteristics defining the scope of a project. The desirability of a given project to be allocated to an option is defined in terms of its MD to that particular option. Ideally, each project should be allocated to its closest option. This, however, may not be possible because of the available levels of each relevant resource. The allocation process is formulated mathematically using two Binary Integer Programming (BIP) models. The first formulation maximizes the dollar value of benefits derived by the traveling public from those projects being implemented subject to a budget, total sum of MD, and in-house manpower constraints. The second formulation minimizes the total sum of MD subject to a budget and the in-house manpower constraints. The proposed solution methodology for the BIP models is based on the branchand- bound method. In particular, one of the contributions of this dissertation is the development of a strategy for branching variables and node selection that is consistent with allocation priorities based on MD to improve the branch-and-bound performance level as well as handle a large scale application. The suggested allocation process includes: (a) multiple allocation groups; (b) multiple constraints; (c) different BIP models. Numerical experiments with different projects and options are considered to illustrate the application of the proposed approach

    Learning from complex networks

    Get PDF
    Graph Theory has proven to be a universal language for describing modern complex systems. The elegant theoretical framework of graphs drew the researchers' attention over decades. Therefore, graphs have emerged as a ubiquitous data structure in various applications where a relational characteristic is evident. Graph-driven applications are found, e.g., in social network analysis, telecommunication networks, logistic processes, recommendation systems, modeling kinetic interactions in protein networks, or the 'Internet of Things' (IoT) where modeling billions of interconnected web-enabled devices is of paramount importance. This thesis dives deep into the challenges of modern graph applications. It proposes a robustified and accelerated spectral clustering model in homogeneous graphs and novel transformer-driven graph shell models for attributed graphs. A new data structure is introduced for probabilistic graphs to compute the information flow efficiently. Moreover, a metaheuristic algorithm is designed to find a good solution to an optimization problem composed of an extended vehicle routing problem. The thesis closes with an analysis of trend flows in social media data. Detecting communities within a graph is a fundamental data mining task of interest in virtually all areas and also serves as an unsupervised preprocessing step for many downstream tasks. One most the most well-established clustering methods is Spectral Clustering. However, standard spectral clustering is highly sensitive to noisy input data, and the eigendecomposition has a high, cubic runtime complexity O(n^3). Tackling one of these problems often exacerbates the other. This thesis presents a new model which accelerates the eigendecomposition step by replacing it with a Nyström approximation. Robustness is achieved by iteratively separating the data into a cleansed and noisy part of the data. In this process, representing the input data as a graph is vital to identify parts of the data being well connected by analyzing the vertices' distances in the eigenspace. With the advances in deep learning architectures, we also observe a surge in research on graph representation learning. The message-passing paradigm in Graph Neural Networks (GNNs) formalizes a predominant heuristic for multi-relational and attributed graph data to learn node representations. In downstream applications, we can use the representations to tackle theoretical problems known as node classification, graph classification/regression, and relation prediction. However, a common issue in GNNs is known as over-smoothing. By increasing the number of iterations within the message-passing, the nodes' representations of the input graph align and become indiscernible. This thesis shows an efficient way of relaxing the GNN architecture by employing a routing heuristic in the general workflow. Specifically, an additional layer routes the nodes' representations to dedicated experts. Each expert calculates the representations according to their respective GNN workflow. The definitions of distinguishable GNNs result from k-localized views starting from a central node. This procedure is referred to as Graph Shell Attention (SEA), where experts process different subgraphs in a transformer-motivated fashion. Reliable propagation of information through large communication networks, social networks, or sensor networks is relevant to applications concerning marketing, social analysis, or monitoring physical or environmental conditions. However, social ties of friendship may be obsolete, and communication links may fail, inducing the notion of uncertainty in such networks. This thesis addresses the problem of optimizing information propagation in uncertain networks given a constrained budget of edges. A specialized data structure, called F-tree, addresses two NP-hard subproblems: the computation of the expected information flow and the optimal choice of edges. The F-tree identifies independent components of a probabilistic input graph for which the information flow can either be computed analytically and efficiently or for which traditional Monte-Carlo sampling can be applied independently of the remaining network. The next part of the thesis covers a graph problem from the Operations Research point of view. A new variant of the well-known vehicle routing problem (VRP) is introduced, where customers are served within a specific time window (TW), as well as flexible delivery locations (FL) including capacity constraints. The latter implies that each customer is scheduled in one out of a set of capacitated delivery service locations. Practically, the VRPTW-FL problem is relevant for applications in parcel delivery, routing with limited parking space, or, for example, in the scope of hospital-wide scheduling of physical therapists. This thesis presents a metaheuristic built upon a hybrid Adaptive Large Neighborhood Search (ALNS). Moreover, a backtracking mechanism in the construction phase is introduced to alter unsatisfactory decisions at early stages. In the computational study, hospital data is used to evaluate the utility of flexible delivery locations and various cost functions. In the last part of the thesis, social media trends are analyzed, which yields insights into user sentiment and newsworthy topics. Such trends consist of bursts of messages concerning a particular topic within a time frame, significantly deviating from the average appearance frequency of the same subject. This thesis presents a method to classify trend archetypes to predict future dissemination by investigating the dissemination of such trends in space and time. Generally, with the ever-increasing scale and complexity of graph-structured datasets and artificial intelligence advances, AI-backed models will inevitably play an important role in analyzing, modeling, and enhancing knowledge extraction from graph data.Die Graphentheorie hat sich zur einer universellen Sprache entwickelt, mit Hilfe derer sich moderne und komplexe Systeme und Zusammenhänge beschreiben lassen. Diese theoretisch elegante und gut fundierte Rahmenstruktur attrahierte über Dekaden hinweg die Aufmerksamkeit von Wissenschaftlern/-innen. In der heutigen Informationstechnologie-Landschaft haben sich Graphen längst zu einer allgegenwärtigen Datenstruktur in Anwendungen etabliert, innerhalb derer charakteristische Zusammenhangskomponenten eine zentrale Rolle spielen. Anwendungen, die über Graphen unterstützt werden, finden sich u.a. in der Analyse von sozialen Netzwerken, Telekommunikationsnetwerken, logistische Prozessverwaltung, Analyse von Empfehlungsdiensten, in der Modellierung kinetischer Interaktionen von Proteinstrukturen, oder auch im "Internet der Dinge" (engl.: 'Internet Of Things' (IoT)), welches das Zusammenspiel von abermillionen web-unterstützte Endgeräte abbildet und eine prädominierende Rolle für große IT-Unternehmen spielt. Diese Dissertation beleuchtet die Herausforderungen moderner Graphanwendungen. Im Bereich homogener Netzwerken wird ein beschleunigtes und robustes spektrales Clusteringverfahren, sowie ein Modell zur Untersuchung von Teilgraphen mittels Transformer-Architekturen für attribuierte Graphen vorgestellt. Auf wahrscheinlichkeitsbasierten homogenen Netzwerken wird eine neue Datenstruktur eingeführt, die es erlaubt einen effizienten Informationsfluss innerhalb eines Graphen zu berechnen. Darüber hinaus wird ein Optimierungsproblem in Transportnetzwerken beleuchtet, sowie eine Untersuchung von Trendflüssen in sozialen Medien diskutiert. Die Untersuchung von Verbünden (engl.: 'Clusters') von Graphdaten stellt einen Eckpfeiler im Bereich der Datengewinnung dar. Die Erkenntnisse sind nahezu in allen praktischen Bereichen von Relevanz und dient im Bereich des unüberwachten Lernens als Vorverarbeitungsschritt für viele nachgeschaltete Aufgaben. Einer der weit verbreitetsten Methodiken zur Verbundanalyse ist das spektrale Clustering. Die Qualität des spektralen Clusterings leidet, wenn die Eingabedaten sehr verrauscht sind und darüber hinaus ist die Eigenwertzerlegung mit O(n^3) eine teure Operation und damit wesentlich für die hohe, kubische Laufzeitkomplexität verantwortlich. Die Optimierung von einem dieser Kriterien exazerbiert oftmals das verbleibende Kriterium. In dieser Dissertation wird ein neues Modell vorgestellt, innerhalb dessen die Eigenwertzerlegung über eine Nyström Annäherung beschleunigt wird. Die Robustheit wird über ein iteratives Verfahren erreicht, das die gesäuberten und die verrauschten Daten voneinander trennt. Die Darstellung der Eingabedaten über einen Graphen spielt hierbei die zentrale Rolle, die es erlaubt die dicht verbundenen Teile des Graphen zu identifizieren. Dies wird über eine Analyse der Distanzen im Eigenraum erreicht. Parallel zu neueren Erkenntnissen im Bereich des Deep Learnings lässt sich auch ein Forschungsdrang im repräsentativen Lernen von Graphen erkennen. Graph Neural Networks (GNN) sind eine neue Unterform von künstlich neuronalen Netzen (engl.: 'Artificial Neural Networks') auf der Basis von Graphen. Das Paradigma des sogenannten 'message-passing' in neuronalen Netzen, die auf Graphdaten appliziert werden, hat sich hierbei zur prädominierenden Heuristik entwickelt, um Vektordarstellungen von Knoten aus (multi-)relationalen, attribuierten Graphdaten zu lernen. Am Ende der Prozesskette können wir somit theoretische Probleme angehen und lösen, die sich mit Fragestellungen über die Klassifikation von Knoten oder Graphen, über regressive Ausdrucksmöglichkeiten bis hin zur Vorhersage von relationaler Verbindungen beschäftigen. Ein klassisches Problem innerhalb graphischer neuronaler Netze ist bekannt unter der Terminologie des 'over-smoothing' (dt.: 'Überglättens'). Es beschreibt, dass sich mit steigender Anzahl an Iterationen des wechselseitigen Informationsaustausches, die Knotenrepräsentationen im vektoriellen Raum angleichen und somit nicht mehr unterschieden werden können. In dieser Forschungsarbeit wird eine effiziente Methode vorgestellt, die die klassische GNN Architektur aufbricht und eine Vermittlerschicht in den herkömmlichen Verarbeitungsfluss einarbeitet. Konkret gesprochen werden hierbei Knotenrepräsentationen an ausgezeichnete Experten geschickt. Jeder Experte verarbeitet auf idiosynkratischer Basis die Knoteninformation. Ausgehend von einem Anfrageknoten liegt das Kriterium für die Unterscheidbarkeit von Experten in der restriktiven Verarbeitung lokaler Information. Diese neue Heuristik wird als 'Graph Shell Attention' (SEA) bezeichnet und beschreibt die Informationsverarbeitung unterschiedlicher Teilgraphen von Experten unter der Verwendung der Transformer-technologie. Eine zuverlässige Weiterleitung von Informationen über größere Kommunikationsnetzwerken, sozialen Netzwerken oder Sensorennetzwerken spielen eine wichtige Rolle in Anwendungen der Marktanalyse, der Analyse eines sozialen Gefüges, oder der Überwachung der physischen und umweltorientierten Bedingungen. Innerhalb dieser Anwendungen können Fälle auftreten, wo Freundschaftsbeziehungen nicht mehr aktuell sind, wo die Kommunikation zweier Endpunkte zusammenbricht, welches mittels einer Unsicherheit des Informationsaustausches zweier Endpunkte ausgedrückt werden kann. Diese Arbeit untersucht die Optimierung des Informationsflusses in Netzwerken, deren Verbindungen unsicher sind, hinsichtlich der Bedingung, dass nur ein Bruchteil der möglichen Kanten für den Informationsaustausch benutzt werden dürfen. Eine eigens entwickelte Datenstruktur - der F-Baum - wird eingeführt, die 2 NP-harte Teilprobleme auf einmal adressiert: zum einen die Berechnung des erwartbaren Informationsflusses und zum anderen die Auswahl der optimalen Kanten. Der F-Baum unterscheidet hierbei unabhängige Zusammenhangskomponenten der wahrscheinlichkeitsbasierten Eingabedaten, deren Informationsfluss entweder analytisch korrekt und effizient berechnet werden können, oder lokal über traditionelle Monte-Carlo sampling approximiert werden können. Der darauffolgende Abschnitt dieser Arbeit befasst sich mit einem Graphproblem aus Sicht der Optimierungsforschung angewandter Mathematik. Es wird eine neue Variante der Tourenplanung vorgestellt, welches neben kundenspezifischer Zeitfenster auch flexible Zustellstandorte beinhaltet. Darüber hinaus obliegt den Zielorten, an denen Kunden bedient werden können, weiteren Kapazitätslimitierungen. Aus praktischer Sicht ist das VRPTW-FL (engl.: "Vehicle Routing Problem with Time Windows and Flexible Locations") eine bedeutende Problemstellung für Paketdienstleister, Routenplanung mit eingeschränkten Stellplätzen oder auch für die praktische Planung der Arbeitsaufteilung von behandelnden Therapeuten/-innen und Ärzten/-innen in einem Krankenhaus. In dieser Arbeit wird für die Bewältigung dieser Problemstellung eine Metaheuristik vorgestellt, die einen hybriden Ansatz mit der sogenannten Adaptive Large Neighborhood Search (ALNS) impliziert. Darüber hinaus wird als Konstruktionsheuristik ein 'Backtracking'-Mechanismus (dt.: Rückverfolgung) angewandt, um initiale Startlösungen aus dem Lösungssuchraum auszuschließen, die weniger vielversprechend sind. In der Evaluierung dieses neuen Ansatz werden Krankenhausdaten untersucht, um auch die Nützlichkeit von flexiblen Zielorten unter verschiedenen Kostenfunktionen herauszuarbeiten. Im letzten Kapitel dieser Dissertation werden Trends in sozialen Daten analysiert, die Auskunft über die Stimmung der Benutzer liefern, sowie Einblicke in tagesaktuelle Geschehnisse gewähren. Ein Kennzeichen solcher Trends liegt in dem Aufbraußen von inhaltsspezifischen Themen innerhalb eines Zeitfensters, die von der durchschnittlichen Erscheinungshäufigkeit desselben Themas signifikant abweichen. Die Untersuchung der Verbreitung solches Trends über die zeitliche und örtliche Dimension erlaubt es, Trends in Archetypen zu klassifizieren, um somit die Ausbreitung zukünftiger Trends hervorzusagen. Mit der immerwährenden Skalierung von Graphdaten und deren Komplexität, und den Fortschritten innerhalb der künstlichen Intelligenz, wird das maschinelle Lernen unweigerlich weiterhin eine wesentliche Rolle spielen, um Graphdaten zu modellieren, analysieren und schlussendlich die Wissensextraktion aus derartigen Daten maßgeblich zu fördern.La théorie des graphes s'est révélée être une langue universel pour décrire les systèmes complexes modernes. L'élégant cadre théorique des graphes a attiré l'attention des chercheurs pendant des décennies. Par conséquent, les graphes sont devenus une structure de données omniprésente dans diverses applications où une caractéristique relationnelle est évidente. Les applications basées sur les graphes se retrouvent, par exemple, dans l'analyse des réseaux sociaux, les réseaux de télécommunication, les processus logistiques, les systèmes de recommandation, la modélisation des interactions cinétiques dans les réseaux de protéines, ou l'"Internet des objets" (IoT) où la modélisation de milliards de dispositifs interconnectés basés sur le web est d'une importance capitale. Cette thèse se penche sur les défis posés par les applications modernes des graphes. Elle propose un modèle de regroupement spectral robuste et accéléré dans les graphes homogènes et de nouveaux modèles d'enveloppe de graphe pilotés par transformateur pour les graphes attribués. Une nouvelle structure de données est introduite pour les graphes probabilistes afin de calculer efficacement le flux d'informations. De plus, un algorithme métaheuristique est conçu pour trouver une bonne solution à un problème d'optimisation composé d'un problème étendu de routage de véhicules. La thèse se termine par une analyse des flux de tendances dans les données des médias sociaux. La détection de communautés au sein d'un graphe est une tâche fondamentale d'exploration de données qui présente un intérêt dans pratiquement tous les domaines et sert également d'étape de prétraitement non supervisé pour de nombreuses tâches en aval. L'une des méthodes de regroupement les mieux établies est le regroupement spectral. Cependant, le regroupement spectral standard est très sensible aux données d'entrée bruitées, et l'eigendecomposition a une complexité d'exécution cubique élevée O(n^3). S'attaquer à l'un de ces problèmes exacerbe souvent l'autre. Cette thèse présente un nouveau modèle qui accélère l'étape d'eigendecomposition en la remplaçant par une approximation de Nyström. La robustesse est obtenue en séparant itérativement les données en une partie nettoyée et une partie bruyante. Dans ce processus, la représentation des données d'entrée sous forme de graphe est essentielle pour identifier les parties des données qui sont bien connectées en analysant les distances des sommets dans l'espace propre. Avec les progrès des architectures de Deep Learning, nous observons également une poussée de la recherche sur l'apprentissage de la représentation graphique. Le paradigme du passage de messages dans les réseaux neuronaux graphiques (GNN) formalise une heuristique prédominante pour les données graphiques multi-relationnelles et attribuées afin d'apprendre les représentations des nœuds. Dans les applications en aval, nous pouvons utiliser les représentations pour résoudre des problèmes théoriques tels que la classification des nœuds, la classification/régression des graphes et la prédiction des relations. Cependant, un problème courant dans les GNN est connu sous le nom de lissage excessif. En augmentant le nombre d'itérations dans le passage de messages, les représentations des nœuds du graphe d'entrée s'alignent et deviennent indiscernables. Cette thèse montre un moyen efficace d'assouplir l'architecture GNN en employant une heuristique de routage dans le flux de travail général. Plus précisément, une couche supplémentaire achemine les représentations des nœuds vers des experts spécialisés. Chaque expert calcule les représentations en fonction de son flux de travail GNN respectif. Les définitions de GNN distincts résultent de k vues localisées à partir d'un nœud central. Cette procédure est appelée Graph Shell Attention (SEA), dans laquelle les experts traitent différents sous-graphes à l'aide d'un transformateur. La propagation fiable d'informations par le biais de grands réseaux de communication, de réseaux sociaux ou de réseaux de capteurs est importante pour les applications concernant le marketing, l'analyse sociale ou la surveillance des conditions physiques ou environnementales. Cependant, les liens sociaux d'amitié peuvent être obsolètes, et les liens de communication peuvent échouer, induisant la notion d'incertitude dans de tels réseaux. Cette thèse aborde le problème de l'optimisation de la propagation de l'information dans les réseaux incertains compte tenu d'un budget contraint d'arêtes. Une structure de données spécialisée, appelée F-tree, traite deux sous-problèmes NP-hard: le calcul du flux d'information attendu et le choix optimal des arêtes. L'arbre F identifie les composants indépendants d'un graphe d'entrée probabiliste pour lesquels le flux d'informations peut être calculé analytiquement et efficacement ou pour lesquels l'échantillonnage Monte-Carlo traditionnel peut être appliqué indépendamment du reste du réseau. La partie suivante de la thèse couvre un problème de graphe du point de vue de la recherche opérationnelle. Une nouvelle variante du célèbre problème d'acheminement par véhicule (VRP) est introduite, où les clients sont servis dans une fenêtre temporelle spécifique (TW), ainsi que des lieux de livraison flexibles (FL) incluant des contraintes de capacité. Ces dernières impliquent que chaque client est programmé dans l'un des emplacements de service de livraison à capacité. En pratique, le problème VRPTW-FL est pertinent pour des applications de livraison de colis, d'acheminement avec un espace de stationnement limité ou, par exemple, dans le cadre de la programmation de kinésithérapeutes à l'échelle d'un hôpital. Cette thèse présente une métaheuristique construite sur une recherche hybride de grands voisinages adaptatifs (ALNS). En outre, un mécanisme de retour en arrière dans la phase de construction est introduit pour modifier les décisions insatisfaisantes à des stades précoces. Dans l'étude computationnelle, des données hospitalières sont utilisées pour évaluer l'utilité de lieux de livraison flexibles et de diverses fonctions de coût. Dans la dernière partie de la thèse, les tendances des médias sociaux sont analysées, ce qui donne un aperçu du sentiment des utilisateurs et des sujets d'actualité. Ces tendances consistent en des rafales de messages concernant un sujet particulier dans un laps de temps donné, s'écartant de manière significative de la fréquence moyenne d'apparition du même sujet. Cette thèse présente une méthode de classification des archétypes de tendances afin de prédire leur diffusion future en étudiant la diffusion de ces tendances dans l'espace et dans le temps. D'une manière générale, avec l'augmentation constante de l'échelle et de la complexité des ensembles de données structurées en graphe et les progrès de l'intelligence artificielle, les modèles soutenus par l'IA joueront inévitablement un rôle important dans l'analyse, la modélisation et l'amélioration de l'extraction de connaissances à partir de données en graphe
    corecore