Search CORE

2 research outputs found

Représentations robustes de documents bruités dans des espaces homogènes

Author: Morchid Mohamed
Publication venue: HAL CCSD
Publication date: 25/11/2014
Field of study

In the Information Retrieval field, documents are usually considered as a "bagof-words". This model does not take into account the temporal structure of thedocument and is sensitive to noises which can alter its lexical form. These noisescan be produced by different sources : uncontrolled form of documents in microbloggingplatforms, automatic transcription of speech documents which are errorprone,lexical and grammatical variabilities in Web forums. . . The work presented inthis thesis addresses issues related to document representations from noisy sources.The thesis consists of three parts in which different representations of content areavailable. The first one compares a classical representation based on a term-frequencyrepresentation to a higher level representation based on a topic space. The abstractionof the document content allows us to limit the alteration of the noisy document byrepresenting its content with a set of high-level features. Our experiments confirm thatmapping a noisy document into a topic space allows us to improve the results obtainedduring different information retrieval tasks compared to a classical approach based onterm frequency. The major problem with such a high-level representation is that it isbased on a space theme whose parameters are chosen empirically.The second part presents a novel representation based on multiple topic spaces thatallow us to solve three main problems : the closeness of the subjects discussed in thedocument, the tricky choice of the "right" values of the topic space parameters and therobustness of the topic-based representation. Based on the idea that a single representationof the contents cannot capture all the relevant information, we propose to increasethe number of views on a single document. This multiplication of views generates "artificial"observations that contain fragments of useful information. The first experimentvalidated the multi-view approach to represent noisy texts. However, it has the disadvantageof being very large and redundant and of containing additional variability associatedwith the diversity of views. In the second step, we propose a method based onfactor analysis to compact the different views and to obtain a new robust representationof low dimension which contains only the informative part of the document whilethe noisy variabilities are compensated. During a dialogue classification task, the compressionprocess confirmed that this compact representation allows us to improve therobustness of noisy document representation.Nonetheless, during the learning process of topic spaces, the document is consideredas a "bag-of-words" while many studies have showed that the word position in a7document is useful. A representation which takes into account the temporal structureof the document based on hyper-complex numbers is proposed in the third part. Thisrepresentation is based on the hyper-complex numbers of dimension four named quaternions.Our experiments on a classification task have showed the effectiveness of theproposed approach compared to a conventional "bag-of-words" representation.En recherche d’information, les documents sont le plus souvent considérés comme des "sacs-de-mots". Ce modèle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altérer la forme lexicale. Ces bruits peuvent être produits par différentes sources : forme peu contrôlée des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilités lexicales et grammaticales dans les forums du Web. . . Le travail présenté dans cette thèse s’intéresse au problème de la représentation de documents issus de sources bruitées.La thèse comporte trois parties dans lesquelles différentes représentations des contenus sont proposées. La première partie compare une représentation classique utilisant la fréquence des mots à une représentation de haut-niveau s’appuyant sur un espace de thèmes. Cette abstraction du contenu permet de limiter l’altération de la forme de surface du document bruité en le représentant par un ensemble de caractéristiques de haut-niveau. Nos expériences confirment que cette projection dans un espace de thèmes permet d’améliorer les résultats obtenus sur diverses tâches de recherche d’information en comparaison d’une représentation plus classique utilisant la fréquence des mots.Le problème majeur d’une telle représentation est qu’elle est fondée sur un espace de thèmes dont les paramètres sont choisis empiriquement.La deuxième partie décrit une nouvelle représentation s’appuyant sur des espaces multiples et permettant de résoudre trois problèmes majeurs : la proximité des sujets traités dans le document, le choix difficile des paramètres du modèle de thèmes ainsi que la robustesse de la représentation. Partant de l’idée qu’une seule représentation des contenus ne peut pas capturer l’ensemble des informations utiles, nous proposons d’augmenter le nombre de vues sur un même document. Cette multiplication des vues permet de générer des observations "artificielles" qui contiennent des fragments de l’information utile. Une première expérience a validé cette approche multi-vues de la représentation de textes bruités. Elle a cependant l’inconvénient d’être très volumineuse,redondante, et de contenir une variabilité additionnelle liée à la diversité des vues. Dans un deuxième temps, nous proposons une méthode s’appuyant sur l’analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle représentation robuste,de dimension réduite, ne contenant que la partie "utile" du document tout en réduisant les variabilités "parasites". Lors d’une tâche de catégorisation de conversations,ce processus de compression a confirmé qu’il permettait d’augmenter la robustesse de la représentation du document bruité.Cependant, lors de l’élaboration des espaces de thèmes, le document reste considéré comme un "sac-de-mots" alors que plusieurs études montrent que la position d’un terme au sein du document est importante. Une représentation tenant compte de cette structure temporelle du document est proposée dans la troisième partie. Cette représentation s’appuie sur les nombres hyper-complexes de dimension appelés quaternions. Nos expériences menées sur une tâche de catégorisation ont montré l’efficacité de cette méthode comparativement aux représentations classiques en "sacs-de-mots"

Thèses en Ligne

Les approches chaos-stochastiques du risque de marché

Author: Hennani Rachida
Publication venue: HAL CCSD
Publication date: 10/12/2015
Field of study

The complexity of financial markets and the resurgence of severe crises contribute to the skepticism and evolution of standard econometric models in the explanation and prediction of financial time series. The warning given jointly by prudential authorities and researchers aims to encourage the development of nonlinear and more complex models inspired by other disciplines. I argue in this thesis that a chaos-stochastic approach of financial dynamics is likely to lead to better results. The relevance of this association is evaluated for market risk in two distinct analytical frameworks. I show the improvements given by a synthesis of chaotic models and GARCH specifications with or without Markov Regime Switching (MRS) for modelling and predicting the Value-at-Risk of 7 mains index of Monetary and Economic Union. It appears, from this study, better results from chaos-stochastic models. In the case of the MRS-GARCH specifications, I find more adequacy of the chaotic model of Lasota (1977) for the indices of Southern Europe, which are especially more volatile than those of Northern Europe for which I recommend the model of Mackey-Glass (1977). This combination allows, in a bivariate framework, to provide information on the relationship between these different indices. I introduce two new specifications that integrate issues related to correlation breakdowns. The first distinguishes, by a sub-periods analysis, the relations of interdependence of contagious relationships. Meanwhile, the second provides, in a unified framework, an integration of correlations breakdowns. These two analyses imply It appears from this double analysis the leading role of the Franco-German duo, the existence of two distinct spheres formed in a part by the Northern European indices and in another part by countries of the Southern Europe, and the intensification of relations between some indices following the sovereign debt crisis. Finally, these results support the relevance of a chaotic model which may account for some volatilities that are, wrongly, attributed to GARCH effects.La complexité des marchés financiers et la recrudescence des crises particulièrement sévères contribuent à l'évolution et à la remise en cause de modèles économétriques dits standards dans l'explication et la prévision des dynamiques financières. L'alerte donnée conjointement par les responsables prudentiels et les chercheurs vise à encourager le développement de modèles plus complexes, non linéaires et largement inspirés d'autres disciplines. Nous soutenons dans cette thèse l'idée qu'une approche chaos-stochastique des chroniques financières est susceptible de conduire à de meilleurs résultats. La pertinence de cette association est évaluée pour le risque de marché dans deux cadres d'analyse distincts. Nous montrons tout l'intérêt d'une synthèse des modèles chaotiques et des spécifications GARCH avec ou sans changements de régimes markoviens (MRS) pour la modélisation et la prévision de la Value-at-Risk des indices boursiers de la zone euro. Il ressort de cette étude de meilleurs résultats des modèles chaos-stochastiques et dans le cas des spécifications MRS-GARCH, une meilleure adéquation du modèle chaotique de Lasota(1977) pour les indices de l'Europe du Sud, particulièrement plus volatiles que ceux de l'Europe du Nord pour lesquels nous recommandons le modèle de Mackey-Glass(1977). Cette combinaison permet, dans un cadre bivarié, de mieux appréhender les liens qui existent entre les différentes places boursières de la zone euro. Nous introduisons deux nouvelles spécifications qui intègrent les problématiques liées aux ruptures de corrélations : la première permet de distinguer, par une analyse en sous-périodes, les relations d'interdépendance par rapport aux phénomènes de contagion et la seconde propose, dans un cadre unifié, d'intégrer les ruptures de corrélations. Cette double analyse met en évidence le rôle moteur du couple d'indices franco-allemand, l'existence de deux sphères distinctes constituées d'une part par les indices de l'Europe du Nord et d'autre part par les pays de l'Europe du Sud et l'intensification de certaines relations entre indices suite à la crise des dettes souveraines. Nous constatons et insistons sur la pertinence d'un modèle chaotique en moyenne pour rendre compte d'une part de la volatilité attribuée, à tort, aux effets GARCH

Thèses en Ligne