4 research outputs found

    Identification des régimes et regroupement des séquences pour la prévision des marchés financiers

    Get PDF
    Abstract : Regime switching analysis is extensively advocated to capture complex behaviors underlying financial time series for market prediction. Two main disadvantages in current approaches of regime identification are raised in the literature: 1) the lack of a mechanism for identifying regimes dynamically, restricting them to switching among a fixed set of regimes with a static transition probability matrix; 2) failure to utilize cross-sectional regime dependencies among time series, since not all the time series are synchronized to the same regime. As the numerical time series can be symbolized into categorical sequences, a third issue raises: 3) the lack of a meaningful and effective measure of the similarity between chronological dependent categorical values, in order to identify sequence clusters that could serve as regimes for market forecasting. In this thesis, we propose a dynamic regime identification model that can identify regimes dynamically with a time-varying transition probability, to address the first issue. For the second issue, we propose a cluster-based regime identification model to account for the cross-sectional regime dependencies underlying financial time series for market forecasting. For the last issue, we develop a dynamic order Markov model, making use of information underlying frequent consecutive patterns and sparse patterns, to identify the clusters that could serve as regimes identified on categorized financial time series. Experiments on synthetic and real-world datasets show that our two regime models show good performance on both regime identification and forecasting, while our dynamic order Markov clustering model also demonstrates good performance on identifying clusters from categorical sequences.L'analyse de changement de régime est largement préconisée pour capturer les comportements complexes sous-jacents aux séries chronologiques financières pour la prédiction du marché. Deux principaux problèmes des approches actuelles d'identifica-tion de régime sont soulevés dans la littérature. Il s’agit de: 1) l'absence d'un mécanisme d'identification dynamique des régimes. Ceci limite la commutation entre un ensemble fixe de régimes avec une matrice de probabilité de transition statique; 2) l’incapacité à utiliser les dépendances transversales des régimes entre les séries chronologiques, car toutes les séries chronologiques ne sont pas synchronisées sur le même régime. Étant donné que les séries temporelles numériques peuvent être symbolisées en séquences catégorielles, un troisième problème se pose: 3) l'absence d'une mesure significative et efficace de la similarité entre les séries chronologiques dépendant des valeurs catégorielles pour identifier les clusters de séquences qui pourraient servir de régimes de prévision du marché. Dans cette thèse, nous proposons un modèle d'identification de régime dynamique qui identifie dynamiquement des régimes avec une probabilité de transition variable dans le temps afin de répondre au premier problème. Ensuite, pour adresser le deuxième problème, nous proposons un modèle d'identification de régime basé sur les clusters. Notre modèle considère les dépendances transversales des régimes sous-jacents aux séries chronologiques financières avant d’effectuer la prévision du marché. Pour terminer, nous abordons le troisième problème en développant un modèle de Markov d'ordre dynamique, en utilisant les informations sous-jacentes aux motifs consécutifs fréquents et aux motifs clairsemés, pour identifier les clusters qui peuvent servir de régimes identifiés sur des séries chronologiques financières catégorisées. Nous avons mené des expériences sur des ensembles de données synthétiques et du monde réel. Nous démontrons que nos deux modèles de régime présentent de bonnes performances à la fois en termes d'identification et de prévision de régime, et notre modèle de clustering de Markov d'ordre dynamique produit également de bonnes performances dans l'identification de clusters à partir de séquences catégorielles

    Étude de la dynamique des populations du viroïde de la mosaïque latente du pêcher par séquençage à haut débit et segmentation

    Get PDF
    Les viroïdes sont des agents pathogènes responsables de maladies affectant les plantes telles que l'avocatier, le pêcher, la tomate, la pomme dé terre, etc. Parce qu'ils dégradent la qualité des fruits et des légumes qu'ils infectent, les viroïdes sont la cause de la perte d'environ 50 % de la production mondiale des cultures touchées. La compréhension des mécanismes couvrant l'infection aux viroïdes constitue un enjeu économique majeur visant l'amélioration de la productivité, dans l'exploitation de ces plantes. Cette étude aborde l'analyse des processus liés à l'infection aux viroïdes par la découverte de nouveaux aspects caractérisant la variabilité génétique du viroïde de la mosaïque latente du pêcher (PLMVd). Elle décrit la dynamique des populations de PLMVd. La grande variabilité de PLMVd, expliquée par un fort taux de mutations, implique la génération de séquences diverses et variées, prenant la forme de nuages. Notre approche pour comprendre cette variabilité génétique de PLMVd consiste à infecter un pêcher à partir d'une seule séquence de PLMVd, puis à en extraire les séquences et analyser leurs caractéristiques intrinsèques par une nouvelle méthode bio-informatique. À notre connaissance, notre étude, à ce jour, est la première à utiliser les récentes techniques de séquençage à haut débit, à des fins d'analyses des viroïdes. La structure relativement simple des viroïdes, brin d'ARN circulaire d'environ 240 à 400 nucléotides, leur confère l'avantage de pouvoir être séquencé dans leur longueur totale par le séquençage à haut débit. Ce dernier couvre de grands volumes de données biologiques, ce qui convient pour séquencer les nuages de séquences qu'on peut retrouver au sein de la population de PLMVd. En bio-informatique, il existe de nombreux algorithmes permettant de comparer des séquences pour en extraire de l'information. L'un des défis majeurs de ces algorithmes est la prise en charge efficace et rapide de quantité de données en constante croissance. Dans le cadre de notre étude, le volume de séquences généré par PLMVd rend impraticable l'application des algorithmes d'alignement pour comparer les séquences et en estimer leurs similarités. D'autres algorithmes tels que ceux basés sur les N-grammes impliquent une perte partielle de l'information contenue dans les séquences. Nous avons donc utilisé une mesure de similarité basée sur le modèle de probabilité conditionnelle (CPD) qui nous permet d'une part, de conserver l'information sous forme de patrons (sous-séquences) contenus dans les séquences, et d'autre part, d'éviter l'alignement de séquences tout en comparant directement chaque séquence avec un ensemble de séquences. Le modèle CPD est intégré dans un nouvel algorithme de segmentation pour les séquences catégoriques, appelé DHCS. Cette étude révèle de nouveaux aspects dans la variabilité génétique de PLMVd. En effet, elle nous a permis d'une part d'extraire des familles de séquences caractérisées par des mutations spécifiques, puis d'autre part, de représenter la distribution de ces mutations dans une arborescence. Par la suite, elle a favorisé l'observation de mutations localisées dans le noyau d'un motif particulier, nommé le ribozyme en tête de marteau des séquences, servant à l'amélioration de l'adaptation de PLMVd. Celui-ci est effectivement sujet à mutations parce que la séquence inoculée au pêcher après 6 mois d'infections n'a pas été retrouvée et que le nombre de mutations enregistrées varie de 2 à 51. Des deux librairies obtenues, nous avons répertorié 1125 et 1061 séquences pour un total de 2186 nouvelles séquences de PLMVd. Seules 300 séquences étaient connues à ce jour. Nous avons observé que les séquences possèdent, selon la librairie, en moyenne 4.6 et 6.3 mutations par rapport à la séquence inoculée. Certaines d'entre elles ont jusqu'à 20 % de dissimilarité par rapport à la séquence inoculée, ce qui est considérable. Grâce à DHCS, les différentes séquences ont pu être groupées en familles, au nombre de 7 et 8 selon la librairie
    corecore