19 research outputs found
Neurals Networks for Projecting Named Entities from English to Ewondo
Named entity recognition is an important task in natural language processing.
It is very well studied for rich language, but still under explored for
low-resource languages. The main reason is that the existing techniques
required a lot of annotated data to reach good performance. Recently, a new
distributional representation of words has been proposed to project named
entities from a rich language to a low-resource one. This representation has
been coupled to a neural network in order to project named entities from
English to Ewondo, a Bantu language spoken in Cameroon. Although the proposed
method reached appreciable results, the size of the used neural network was too
large compared to the size of the dataset. Furthermore the impact of the model
parameters has not been studied. In this paper, we show experimentally that the
same results can be obtained using a smaller neural network. We also emphasize
the parameters that are highly correlated to the network performance. This work
is a step forward to build a reliable and robust network architecture for named
entity projection in low resource languages
Classification Explicable de SĂ©ries Temporelles Incertaines
Time series classification is one of the must studied and applied time series analysis tasks. Several methods have been proposed to perform this task accurately, efficiently and sometimes in an explainable way. However, situations where the time series are made of uncertain values are still under-explored although any physical measurement is subject to uncertainty. The existing works in this fields are based on uncertain similarity measures such as DUST, MUNICH, and FOTS which have the same main limitation of not propagating uncertainty to the next step of the classification process. This behavior causes the last parts of the process to treat the data as if they were certain while they are not, leading to untrustable predictions. This thesis tackles this limitation by proposing efficient, robust and explainable methods for uncertain time series classification (uTSC). We start by proposing a general framework for uncertain time series classification which propagates uncertainty from the beginning to the end of the process. Then, we instantiate this framework using uncertainty propagation arithmetic to propose the UST model which outperformed existing uTSC models while being explainable. We continue by improving the scalability of UST by proposing the SAST and the uSAST models. SAST is a novel accurate, scalable and interpretable method that we propose for time series classification. uSAST is the extension of SAST to uTSC. We show the effectiveness our methods on simulated datasets, on state-of-the-art datasets, and on a real-world uncertain time series dataset from the astrophysics domain. The source codes and the data used in the work are all available publicly.La classification de séries temporelles est l'une des tâches d'analyse de séries temporelles les plus étudiées et les plus appliquées. Plusieurs méthodes performantes et des fois interprétables ont été proposées pour réaliser cette tâche. Cependant, les cas où les séries temporelles sont faites de valeurs incertaines restent sous-explorés, et ceci malgré que toute mesure physique soit sujette à incertitude. Les travaux existants dans ce domaine sont basés sur des mesures de similarité incertaine telles que DUST, MUNICH et FOTS qui partagent la principale limite de ne pas propager l'incertitude à la prochaine étape de la classification. Par conséquent, les dernières étapes du processus de classification ne sont pas conscientes du fait que les données sont incertaines et les traitent donc comme si elles étaient certaines, conduisant ainsi à des prédictions non fiables. Cette thèse a pour but de corriger cette limite en proposant des méthodes efficaces, robustes et interprétables pour la classification de séries temporelles incertaines. Nous commençons par proposer un cadre général pour la classification de séries temporelles incertaines qui propage l'incertitude du début à la fin du processus de classification. Nous instancions ensuite ce cadre en utilisant l'arithmétique de propagation de l'incertitude pour proposer la méthode UST qui a donné des résultats meilleurs que ceux données par les méthodes existantes de classification de séries temporelles incertaines tout en étant interprétable. Par la suite, nous améliorons le temps de calcul requis par UST en proposant les méthodes SAST et uSAST. SAST est une nouvelle approche performante, rapide et interprétable que nous avons proposé pour la classification de séries temporelles, et uSAST est son extension aux séries temporelles incertaines. Nous évaluons nos méthodes sur des jeux données simulées, sur des données de l'état de l'art et sur un jeu de données réel provenant du domaine de l'astrophysique. Les codes sources et les données utilisés dans ce travail sont rendus disponible sur internet
Classification Explicable de SĂ©ries Temporelles Incertaines
Time series classification is one of the must studied and applied time series analysis tasks. Several methods have been proposed to perform this task accurately, efficiently and sometimes in an explainable way. However, situations where the time series are made of uncertain values are still under-explored although any physical measurement is subject to uncertainty. The existing works in this fields are based on uncertain similarity measures such as DUST, MUNICH, and FOTS which have the same main limitation of not propagating uncertainty to the next step of the classification process. This behavior causes the last parts of the process to treat the data as if they were certain while they are not, leading to untrustable predictions. This thesis tackles this limitation by proposing efficient, robust and explainable methods for uncertain time series classification (uTSC). We start by proposing a general framework for uncertain time series classification which propagates uncertainty from the beginning to the end of the process. Then, we instantiate this framework using uncertainty propagation arithmetic to propose the UST model which outperformed existing uTSC models while being explainable. We continue by improving the scalability of UST by proposing the SAST and the uSAST models. SAST is a novel accurate, scalable and interpretable method that we propose for time series classification. uSAST is the extension of SAST to uTSC. We show the effectiveness our methods on simulated datasets, on state-of-the-art datasets, and on a real-world uncertain time series dataset from the astrophysics domain. The source codes and the data used in the work are all available publicly.La classification de séries temporelles est l'une des tâches d'analyse de séries temporelles les plus étudiées et les plus appliquées. Plusieurs méthodes performantes et des fois interprétables ont été proposées pour réaliser cette tâche. Cependant, les cas où les séries temporelles sont faites de valeurs incertaines restent sous-explorés, et ceci malgré que toute mesure physique soit sujette à incertitude. Les travaux existants dans ce domaine sont basés sur des mesures de similarité incertaine telles que DUST, MUNICH et FOTS qui partagent la principale limite de ne pas propager l'incertitude à la prochaine étape de la classification. Par conséquent, les dernières étapes du processus de classification ne sont pas conscientes du fait que les données sont incertaines et les traitent donc comme si elles étaient certaines, conduisant ainsi à des prédictions non fiables. Cette thèse a pour but de corriger cette limite en proposant des méthodes efficaces, robustes et interprétables pour la classification de séries temporelles incertaines. Nous commençons par proposer un cadre général pour la classification de séries temporelles incertaines qui propage l'incertitude du début à la fin du processus de classification. Nous instancions ensuite ce cadre en utilisant l'arithmétique de propagation de l'incertitude pour proposer la méthode UST qui a donné des résultats meilleurs que ceux données par les méthodes existantes de classification de séries temporelles incertaines tout en étant interprétable. Par la suite, nous améliorons le temps de calcul requis par UST en proposant les méthodes SAST et uSAST. SAST est une nouvelle approche performante, rapide et interprétable que nous avons proposé pour la classification de séries temporelles, et uSAST est son extension aux séries temporelles incertaines. Nous évaluons nos méthodes sur des jeux données simulées, sur des données de l'état de l'art et sur un jeu de données réel provenant du domaine de l'astrophysique. Les codes sources et les données utilisés dans ce travail sont rendus disponible sur internet
Classification Explicable de SĂ©ries Temporelles Incertaines
La classification de séries temporelles est l'une des tâches d'analyse de séries temporelles les plus étudiées et les plus appliquées. Plusieurs méthodes performantes et des fois interprétables ont été proposées pour réaliser cette tâche. Cependant, les cas où les séries temporelles sont faites de valeurs incertaines restent sous-explorés, et ceci malgré que toute mesure physique soit sujette à incertitude. Les travaux existants dans ce domaine sont basés sur des mesures de similarité incertaine telles que DUST, MUNICH et FOTS qui partagent la principale limite de ne pas propager l'incertitude à la prochaine étape de la classification. Par conséquent, les dernières étapes du processus de classification ne sont pas conscientes du fait que les données sont incertaines et les traitent donc comme si elles étaient certaines, conduisant ainsi à des prédictions non fiables. Cette thèse a pour but de corriger cette limite en proposant des méthodes efficaces, robustes et interprétables pour la classification de séries temporelles incertaines. Nous commençons par proposer un cadre général pour la classification de séries temporelles incertaines qui propage l'incertitude du début à la fin du processus de classification. Nous instancions ensuite ce cadre en utilisant l'arithmétique de propagation de l'incertitude pour proposer la méthode UST qui a donné des résultats meilleurs que ceux données par les méthodes existantes de classification de séries temporelles incertaines tout en étant interprétable. Par la suite, nous améliorons le temps de calcul requis par UST en proposant les méthodes SAST et uSAST. SAST est une nouvelle approche performante, rapide et interprétable que nous avons proposé pour la classification de séries temporelles, et uSAST est son extension aux séries temporelles incertaines. Nous évaluons nos méthodes sur des jeux données simulées, sur des données de l'état de l'art et sur un jeu de données réel provenant du domaine de l'astrophysique. Les codes sources et les données utilisés dans ce travail sont rendus disponible sur internet.Time series classification is one of the must studied and applied time series analysis tasks. Several methods have been proposed to perform this task accurately, efficiently and sometimes in an explainable way. However, situations where the time series are made of uncertain values are still under-explored although any physical measurement is subject to uncertainty. The existing works in this fields are based on uncertain similarity measures such as DUST, MUNICH, and FOTS which have the same main limitation of not propagating uncertainty to the next step of the classification process. This behavior causes the last parts of the process to treat the data as if they were certain while they are not, leading to untrustable predictions. This thesis tackles this limitation by proposing efficient, robust and explainable methods for uncertain time series classification (uTSC). We start by proposing a general framework for uncertain time series classification which propagates uncertainty from the beginning to the end of the process. Then, we instantiate this framework using uncertainty propagation arithmetic to propose the UST model which outperformed existing uTSC models while being explainable. We continue by improving the scalability of UST by proposing the SAST and the uSAST models. SAST is a novel accurate, scalable and interpretable method that we propose for time series classification. uSAST is the extension of SAST to uTSC. We show the effectiveness our methods on simulated datasets, on state-of-the-art datasets, and on a real-world uncertain time series dataset from the astrophysics domain. The source codes and the data used in the work are all available publicly
Scalable and Accurate Subsequence Transform
https://www.youtube.com/watch?v=0_Uhc-2vLGgInternational audienceTime series classification using phase-independent subsequences called shapelets is one of the best approaches in the state of the art. This approach is especially characterized by its interpretable property and its fast prediction time. However, given a dataset of n time series of length at most m, learning shapelets requires a computation time of O(n 2 m 4) which is too high for practical datasets. In this paper, we exploit the fact that shapelets are shared by the members of the same class to propose the SAST (Scalable and Accurate Subsequence Transform) algorithm which is interpretable, accurate and more faster than the actual state of the art shapelet algorithm. The experiments we conducted on the UCR archive datasets shown that SAST is more accurate than the state of the art Shapelet Transform algorithm on many datasets, while being significantly more scalable
Classification of Uncertain Time Series by Propagating Uncertainty in Shapelet Transform
The notion of uncertainty is of major importance in machine learning and constitutes a key element of modern machine learning methodology. In recent years, it has gained in importance due to the increasing relevance of machine learning for practical applications, many of which are coming with safety requirements. In this regard, new problems and challenges have been identified by machine learning scholars, which call for new methodological developments. Indeed, while uncertainty has long been perceived as almost synonymous with standard probability and probabilistic predictions, recent research has gone beyond traditional approaches and also leverages more general formalisms and uncertainty calculi. For example, a distinction between different sources and types of uncertainty, such as aleatoric and epistemic uncertainty, turns out to be useful in many machine learning applications. The workshop will pay specific attention to recent developments of this kind.International audienceTime series classification is a task that aims at classifying chronological data. It is used in a diverse range of domains such as meteorology, medicine and physics. In the last decade, many algorithms have been built to perform this task with very appreciable accuracy. However, the uncertainty in data is not explicitly taken into account by these methods. Using uncertainty propagation techniques, we propose a new uncertain dissimilarity measure based on euclidean distance. We also show how to classify uncertain time series using the proposed dissimilarity measure and shapelet transform, one of the best time series classification methods. An experimental assessment of our contribution is done on the well known UCR dataset.La classification des séries temporelles est une tache dont le but est de classer des données qui évoluent avec le temps. Elle est utilisée dans divers domaines tels que la météorologie, la médecine et la physique. Durant la dernière décennie, plusieurs algorithmes performants ont été développés pour réaliser cette tache. Cependant, l'incertitude dans les données n'est généralement pas prise en compte dans ces méthodes. En utilisant les techniques de propagation de l'incertitude, nous proposons une nouvelle mesure de dissimilarité incertaine basée sur la distance euclidienne. Nous avons ensuite couplé cette distance à la transformation shapelet afin de réaliser la classification des séries temporelles incertaines. Une évaluation expérimentale de notre contribution a été faite sur les jeux de données du dépôt UCR
Classification of Uncertain Time Series by Propagating Uncertainty in Shapelet Transform
The notion of uncertainty is of major importance in machine learning and constitutes a key element of modern machine learning methodology. In recent years, it has gained in importance due to the increasing relevance of machine learning for practical applications, many of which are coming with safety requirements. In this regard, new problems and challenges have been identified by machine learning scholars, which call for new methodological developments. Indeed, while uncertainty has long been perceived as almost synonymous with standard probability and probabilistic predictions, recent research has gone beyond traditional approaches and also leverages more general formalisms and uncertainty calculi. For example, a distinction between different sources and types of uncertainty, such as aleatoric and epistemic uncertainty, turns out to be useful in many machine learning applications. The workshop will pay specific attention to recent developments of this kind.International audienceTime series classification is a task that aims at classifying chronological data. It is used in a diverse range of domains such as meteorology, medicine and physics. In the last decade, many algorithms have been built to perform this task with very appreciable accuracy. However, the uncertainty in data is not explicitly taken into account by these methods. Using uncertainty propagation techniques, we propose a new uncertain dissimilarity measure based on euclidean distance. We also show how to classify uncertain time series using the proposed dissimilarity measure and shapelet transform, one of the best time series classification methods. An experimental assessment of our contribution is done on the well known UCR dataset.La classification des séries temporelles est une tache dont le but est de classer des données qui évoluent avec le temps. Elle est utilisée dans divers domaines tels que la météorologie, la médecine et la physique. Durant la dernière décennie, plusieurs algorithmes performants ont été développés pour réaliser cette tache. Cependant, l'incertitude dans les données n'est généralement pas prise en compte dans ces méthodes. En utilisant les techniques de propagation de l'incertitude, nous proposons une nouvelle mesure de dissimilarité incertaine basée sur la distance euclidienne. Nous avons ensuite couplé cette distance à la transformation shapelet afin de réaliser la classification des séries temporelles incertaines. Une évaluation expérimentale de notre contribution a été faite sur les jeux de données du dépôt UCR