10 research outputs found

    Influence de la distribution des classes et évaluation en apprentissage profond‎ - Application à la détection du cancer sur des images histologiques

    Get PDF
    Le cancer est une maladie mortelle considérée comme la deuxième cause de décès. Toute avancée dans le diagnostic et la détection du cancer est donc cruciale pour sauver des vies. L’analyse d’images histologiques - également appelées Whole Slide Images (WSI) - est considérée comme la référence dans le diagnostic et l’étude du stade du cancer. L’analyse manuelle de ces images par les pathologistes reste le principal processus de diagnostic. Il prend du temps, est laborieux, sujet aux erreurs et difficile à évaluer de manière reproductible. Les techniques de diagnostic assisté par ordinateur peuvent aider les pathologistes dans leur travail. Les techniques d’apprentissage automatique, en particulier les algorithmes d’apprentissage profond, tels que les réseaux de neurones convolutifs (CNN), sont largement utilisés dans divers domaines dont l’analyse d’images. Le succès des modèles CNN dépend cependant de plusieurs hyper-paramètres, tels que l’architecture du réseau, les données utilisées pour entraîner le modèle et la distribution des données d’entraînement. A notre connaissance, parmi les hyper-paramètres, la distribution des données d’entraînement n’est pas encore étudiée dans la littérature pour les données WSI, alors qu’elle pourrait être l’un des critères les plus importants pour réguler les performances du modèle. L’un des objectifs de cette thèse est d’étudier en profondeur l’impact de la répartition des classes tant au stade de l’apprentissage qu’au stade du test ou de la prévision. Un autre objectif de cette thèse est lié à l’évaluation au sens large. Nous avons étudié des moyens d’évaluer les résultats qui correspondent davantage aux objectifs du pathologiste et résolvent les problèmes des métriques actuelles qui souffrent de leur incapacité à distinguer les modèles dans de nombreux cas, manquent d’informations concernant les fausses prédictions et sont optimistes dans le cas de données déséquilibrées. Considérant à la fois la distribution des classes et l’évaluation de la détection du cancer à partir des WSI, les contributions spécifiques de cette thèse sont les suivantes : la première contribution principale de cette thèse est d’étudier l’efficacité de la distribution équilibrée dans la détection automatique du cancer qui est utilisée dans de nombreuses études. Nous proposons une approche systématique pour analyser la distribution des classes des données WSI dans l’ensemble d’apprentissage, pour proposer différentes hypothèses sur la distribution des classes et tester ces hypothèses en utilisant trois ensembles de données et deux architectures CNN, le réseau U-net et le réseau convolutif équivariant de groupe (G-CNN). Nous introduisons également une méthode d’évaluation basée sur les régions de l’image alternative à la méthode habituelle basée sur les pixels. Elle permet d’obtenir une meilleure correspondance par rapport à la façon dont un pathologiste vérifie les images. Nous avons constaté que la distribution équilibrée n’est pas optimale pour l’entrainement d’un CNN, et qu’avec la distribution biaisée par classe, il est possible d’infléchir le modèle vers la précision souhaitée (par exemple, vers le rappel ou la précision). Ces résultats constituent une avancée pour comprendre le comportement du modèle vis-à-vis des différentes distributions de classes dans l’ensemble d’apprentissage. La deuxième contribution principale de cette thèse est de développer une représentation continue basée sur un seuil des courbes de précision et de rappel (PR-T) comme alternative aux courbes de caractéristiques de fonctionnement du récepteur (ROC) et de précision-rappel (PR), les métriques d’évaluation usuelles en classification binaire. De plus, nous avons développé des algorithmes de bout en bout pour calculer la courbe PR moyenne et la moyenne de l’aire sous la courbe (PR-AUC).Cancer is a fatal disease considered the second leading cause of death. Any advances in diagnosis and detection of cancer are thus crucial to save lives. The analysis of histological images -also known as Whole Slide Images (WSIs)-is considered as the gold standard in cancer diagnosis and staging. The pathologists’ manual analysis of WSIs is still the primary diagnosis process. It is time-consuming, laborious, prone to error, and difficult to grade in a reproducible manner. Computer-aided diagnosis techniques can assist pathologists in their workflow. Machine learning techniques, specifically deep learning algorithms, such as Convolutional Neural Networks (CNNs), are widely used in various domains that involve image analysis. The success of CNN models, however, depends on several hyper-parameter settings, such as the network architecture, the data used to train the model, and the class distribution of the training data. To the best of our knowledge, among the hyper-parameters, the class distribution of the training data is not studied yet in the literature for the WSI data, while it could be one of the most important criteria to regulate the model performance. One of the aims of this thesis is to study in-depth the impact of class distribution both at the training stage and at the test or forecasting stage. Another aim of this thesis is related to evaluation in a broader sense. We studied ways of evaluating the results that fit more the pathologist’s goals and solve the issues of current metrics that suffer from their incapacity to distinguish models in many cases, lacking information regarding false predictions and being optimistic in the case of imbalanced data. Considering both the class distribution and the evaluation for cancer detection from WSIs, the specific contributions of this thesis areas follows: The first main contribution of this thesis is to investigate the effectiveness of the balanced distribution in automatic cancer detection which is used in many studies. We propose a systematic approach to analyze the class distribution of the WSI data in the training set; put forward different hypotheses on the class distribution and test those hypotheses using three data sets and two CNN architectures, the U-net and the group equivariant convolutional network (G-CNN). We also introduce a patch-based (i.e., image region-based) evaluation method over the usual pixel-based one to obtain a better match in comparison to how a pathologist checks images. We found that the balanced distribution is not optimal for CNN training for cancer detection from WSI, rather with the class-biased distribution, it is possible to inflect the model toward the desired accuracy (e.g., toward recall or precision). These results are a step forward to understand the model behavior towards the different distributions of classes in the training set. The second main contribution of this thesis is to develop a continuous threshold-based representation of precision and recall (PR-T) curves as an alternative to the Receiver Operating Characteristics (ROC) and Precision-Recall (PR) curves, the state-of-the-art evaluation metrics in binary classification as is cancer detection. Additionally, we developed end-to-end algorithms to compute the mean PR curve and the mean Area Under the Curve (PR-AUC)

    Influence de la distribution des classes et évaluation en apprentissage profond‎ - Application à la détection du cancer sur des images histologiques

    Get PDF
    Le cancer est une maladie mortelle considérée comme la deuxième cause de décès. Toute avancée dans le diagnostic et la détection du cancer est donc cruciale pour sauver des vies. L’analyse d’images histologiques - également appelées Whole Slide Images (WSI) - est considérée comme la référence dans le diagnostic et l’étude du stade du cancer. L’analyse manuelle de ces images par les pathologistes reste le principal processus de diagnostic. Il prend du temps, est laborieux, sujet aux erreurs et difficile à évaluer de manière reproductible. Les techniques de diagnostic assisté par ordinateur peuvent aider les pathologistes dans leur travail. Les techniques d’apprentissage automatique, en particulier les algorithmes d’apprentissage profond, tels que les réseaux de neurones convolutifs (CNN), sont largement utilisés dans divers domaines dont l’analyse d’images. Le succès des modèles CNN dépend cependant de plusieurs hyper-paramètres, tels que l’architecture du réseau, les données utilisées pour entraîner le modèle et la distribution des données d’entraînement. A notre connaissance, parmi les hyper-paramètres, la distribution des données d’entraînement n’est pas encore étudiée dans la littérature pour les données WSI, alors qu’elle pourrait être l’un des critères les plus importants pour réguler les performances du modèle. L’un des objectifs de cette thèse est d’étudier en profondeur l’impact de la répartition des classes tant au stade de l’apprentissage qu’au stade du test ou de la prévision. Un autre objectif de cette thèse est lié à l’évaluation au sens large. Nous avons étudié des moyens d’évaluer les résultats qui correspondent davantage aux objectifs du pathologiste et résolvent les problèmes des métriques actuelles qui souffrent de leur incapacité à distinguer les modèles dans de nombreux cas, manquent d’informations concernant les fausses prédictions et sont optimistes dans le cas de données déséquilibrées. Considérant à la fois la distribution des classes et l’évaluation de la détection du cancer à partir des WSI, les contributions spécifiques de cette thèse sont les suivantes : la première contribution principale de cette thèse est d’étudier l’efficacité de la distribution équilibrée dans la détection automatique du cancer qui est utilisée dans de nombreuses études. Nous proposons une approche systématique pour analyser la distribution des classes des données WSI dans l’ensemble d’apprentissage, pour proposer différentes hypothèses sur la distribution des classes et tester ces hypothèses en utilisant trois ensembles de données et deux architectures CNN, le réseau U-net et le réseau convolutif équivariant de groupe (G-CNN). Nous introduisons également une méthode d’évaluation basée sur les régions de l’image alternative à la méthode habituelle basée sur les pixels. Elle permet d’obtenir une meilleure correspondance par rapport à la façon dont un pathologiste vérifie les images. Nous avons constaté que la distribution équilibrée n’est pas optimale pour l’entrainement d’un CNN, et qu’avec la distribution biaisée par classe, il est possible d’infléchir le modèle vers la précision souhaitée (par exemple, vers le rappel ou la précision). Ces résultats constituent une avancée pour comprendre le comportement du modèle vis-à-vis des différentes distributions de classes dans l’ensemble d’apprentissage. La deuxième contribution principale de cette thèse est de développer une représentation continue basée sur un seuil des courbes de précision et de rappel (PR-T) comme alternative aux courbes de caractéristiques de fonctionnement du récepteur (ROC) et de précision-rappel (PR), les métriques d’évaluation usuelles en classification binaire. De plus, nous avons développé des algorithmes de bout en bout pour calculer la courbe PR moyenne et la moyenne de l’aire sous la courbe (PR-AUC).Cancer is a fatal disease considered the second leading cause of death. Any advances in diagnosis and detection of cancer are thus crucial to save lives. The analysis of histological images -also known as Whole Slide Images (WSIs)-is considered as the gold standard in cancer diagnosis and staging. The pathologists’ manual analysis of WSIs is still the primary diagnosis process. It is time-consuming, laborious, prone to error, and difficult to grade in a reproducible manner. Computer-aided diagnosis techniques can assist pathologists in their workflow. Machine learning techniques, specifically deep learning algorithms, such as Convolutional Neural Networks (CNNs), are widely used in various domains that involve image analysis. The success of CNN models, however, depends on several hyper-parameter settings, such as the network architecture, the data used to train the model, and the class distribution of the training data. To the best of our knowledge, among the hyper-parameters, the class distribution of the training data is not studied yet in the literature for the WSI data, while it could be one of the most important criteria to regulate the model performance. One of the aims of this thesis is to study in-depth the impact of class distribution both at the training stage and at the test or forecasting stage. Another aim of this thesis is related to evaluation in a broader sense. We studied ways of evaluating the results that fit more the pathologist’s goals and solve the issues of current metrics that suffer from their incapacity to distinguish models in many cases, lacking information regarding false predictions and being optimistic in the case of imbalanced data. Considering both the class distribution and the evaluation for cancer detection from WSIs, the specific contributions of this thesis areas follows: The first main contribution of this thesis is to investigate the effectiveness of the balanced distribution in automatic cancer detection which is used in many studies. We propose a systematic approach to analyze the class distribution of the WSI data in the training set; put forward different hypotheses on the class distribution and test those hypotheses using three data sets and two CNN architectures, the U-net and the group equivariant convolutional network (G-CNN). We also introduce a patch-based (i.e., image region-based) evaluation method over the usual pixel-based one to obtain a better match in comparison to how a pathologist checks images. We found that the balanced distribution is not optimal for CNN training for cancer detection from WSI, rather with the class-biased distribution, it is possible to inflect the model toward the desired accuracy (e.g., toward recall or precision). These results are a step forward to understand the model behavior towards the different distributions of classes in the training set. The second main contribution of this thesis is to develop a continuous threshold-based representation of precision and recall (PR-T) curves as an alternative to the Receiver Operating Characteristics (ROC) and Precision-Recall (PR) curves, the state-of-the-art evaluation metrics in binary classification as is cancer detection. Additionally, we developed end-to-end algorithms to compute the mean PR curve and the mean Area Under the Curve (PR-AUC)

    Class distribution influence and evaluation in deep learning : Application to cancer detection on histological images

    No full text
    Le cancer est une maladie mortelle considérée comme la deuxième cause de décès. Toute avancée dans le diagnostic et la détection du cancer est donc cruciale pour sauver des vies. L’analyse d’images histologiques - également appelées Whole Slide Images (WSI) - est considérée comme la référence dans le diagnostic et l’étude du stade du cancer. L’analyse manuelle de ces images par les pathologistes reste le principal processus de diagnostic. Il prend du temps, est laborieux, sujet aux erreurs et difficile à évaluer de manière reproductible. Les techniques de diagnostic assisté par ordinateur peuvent aider les pathologistes dans leur travail. Les techniques d’apprentissage automatique, en particulier les algorithmes d’apprentissage profond, tels que les réseaux de neurones convolutifs (CNN), sont largement utilisés dans divers domaines dont l’analyse d’images. Le succès des modèles CNN dépend cependant de plusieurs hyper-paramètres, tels que l’architecture du réseau, les données utilisées pour entraîner le modèle et la distribution des données d’entraînement. A notre connaissance, parmi les hyper-paramètres, la distribution des données d’entraînement n’est pas encore étudiée dans la littérature pour les données WSI, alors qu’elle pourrait être l’un des critères les plus importants pour réguler les performances du modèle. L’un des objectifs de cette thèse est d’étudier en profondeur l’impact de la répartition des classes tant au stade de l’apprentissage qu’au stade du test ou de la prévision. Un autre objectif de cette thèse est lié à l’évaluation au sens large. Nous avons étudié des moyens d’évaluer les résultats qui correspondent davantage aux objectifs du pathologiste et résolvent les problèmes des métriques actuelles qui souffrent de leur incapacité à distinguer les modèles dans de nombreux cas, manquent d’informations concernant les fausses prédictions et sont optimistes dans le cas de données déséquilibrées. Considérant à la fois la distribution des classes et l’évaluation de la détection du cancer à partir des WSI, les contributions spécifiques de cette thèse sont les suivantes : la première contribution principale de cette thèse est d’étudier l’efficacité de la distribution équilibrée dans la détection automatique du cancer qui est utilisée dans de nombreuses études. Nous proposons une approche systématique pour analyser la distribution des classes des données WSI dans l’ensemble d’apprentissage, pour proposer différentes hypothèses sur la distribution des classes et tester ces hypothèses en utilisant trois ensembles de données et deux architectures CNN, le réseau U-net et le réseau convolutif équivariant de groupe (G-CNN). Nous introduisons également une méthode d’évaluation basée sur les régions de l’image alternative à la méthode habituelle basée sur les pixels. Elle permet d’obtenir une meilleure correspondance par rapport à la façon dont un pathologiste vérifie les images. Nous avons constaté que la distribution équilibrée n’est pas optimale pour l’entrainement d’un CNN, et qu’avec la distribution biaisée par classe, il est possible d’infléchir le modèle vers la précision souhaitée (par exemple, vers le rappel ou la précision). Ces résultats constituent une avancée pour comprendre le comportement du modèle vis-à-vis des différentes distributions de classes dans l’ensemble d’apprentissage. La deuxième contribution principale de cette thèse est de développer une représentation continue basée sur un seuil des courbes de précision et de rappel (PR-T) comme alternative aux courbes de caractéristiques de fonctionnement du récepteur (ROC) et de précision-rappel (PR), les métriques d’évaluation usuelles en classification binaire. De plus, nous avons développé des algorithmes de bout en bout pour calculer la courbe PR moyenne et la moyenne de l’aire sous la courbe (PR-AUC).Cancer is a fatal disease considered the second leading cause of death. Any advances in diagnosis and detection of cancer are thus crucial to save lives. The analysis of histological images -also known as Whole Slide Images (WSIs)-is considered as the gold standard in cancer diagnosis and staging. The pathologists’ manual analysis of WSIs is still the primary diagnosis process. It is time-consuming, laborious, prone to error, and difficult to grade in a reproducible manner. Computer-aided diagnosis techniques can assist pathologists in their workflow. Machine learning techniques, specifically deep learning algorithms, such as Convolutional Neural Networks (CNNs), are widely used in various domains that involve image analysis. The success of CNN models, however, depends on several hyper-parameter settings, such as the network architecture, the data used to train the model, and the class distribution of the training data. To the best of our knowledge, among the hyper-parameters, the class distribution of the training data is not studied yet in the literature for the WSI data, while it could be one of the most important criteria to regulate the model performance. One of the aims of this thesis is to study in-depth the impact of class distribution both at the training stage and at the test or forecasting stage. Another aim of this thesis is related to evaluation in a broader sense. We studied ways of evaluating the results that fit more the pathologist’s goals and solve the issues of current metrics that suffer from their incapacity to distinguish models in many cases, lacking information regarding false predictions and being optimistic in the case of imbalanced data. Considering both the class distribution and the evaluation for cancer detection from WSIs, the specific contributions of this thesis areas follows: The first main contribution of this thesis is to investigate the effectiveness of the balanced distribution in automatic cancer detection which is used in many studies. We propose a systematic approach to analyze the class distribution of the WSI data in the training set; put forward different hypotheses on the class distribution and test those hypotheses using three data sets and two CNN architectures, the U-net and the group equivariant convolutional network (G-CNN). We also introduce a patch-based (i.e., image region-based) evaluation method over the usual pixel-based one to obtain a better match in comparison to how a pathologist checks images. We found that the balanced distribution is not optimal for CNN training for cancer detection from WSI, rather with the class-biased distribution, it is possible to inflect the model toward the desired accuracy (e.g., toward recall or precision). These results are a step forward to understand the model behavior towards the different distributions of classes in the training set. The second main contribution of this thesis is to develop a continuous threshold-based representation of precision and recall (PR-T) curves as an alternative to the Receiver Operating Characteristics (ROC) and Precision-Recall (PR) curves, the state-of-the-art evaluation metrics in binary classification as is cancer detection. Additionally, we developed end-to-end algorithms to compute the mean PR curve and the mean Area Under the Curve (PR-AUC)

    Deep Analysis of CNN Settings for New Cancer whole-slide Histological Images Segmentation: the Case of Small Training Sets

    Get PDF
    International audienceAccurate analysis and interpretation of stained biopsy images is a crucial step in the cancer diagnostic routine which is mainly done manually by expert pathologists. The recent progress of digital pathology gives us a challenging opportunity to automatically process these complex image data in order to retrieve essential information and to study tissue elements and structures. This paper addresses the task of tissue-level segmentation in intermediate resolution of histopathological breast cancer images. Firstly, we present a new medical dataset we developed which is composed of hematoxylin and eosin stained whole-slide images wherein all 7 tissues were labeled by hand and validated by expert pathologist. Then, with this unique dataset, we proposed an automatic end-to-end framework using deep neural network for tissue-level segmentation. Moreover, we provide a deep analysis of the framework settings that can be used in similar task by the scientific community

    Natural vs Balanced Distribution in Deep Learning on Whole Slide Images for Cancer Detection

    No full text
    International audienceThe class distribution of data is one of the factors that regulates the performance of machine learning models. However, investigations on the impact of different distributions available in the literature are very few, sometimes absent for domain-specific tasks. In this paper, we analyze the impact of natural and balanced distributions of the training set in deep learning (DL) models applied on histological images, also known as whole slide images (WSIs). WSIs are considered as the gold standard for cancer diagnosis. In recent years, researchers have turned their attention to DL models to automate and accelerate the diagnosis process. In the training of such DL models, filtering out the non-regions-of-interest from the WSIs and adopting an artificial distribution-usually a balanced distribution-is a common trend. In our analysis, we show that keeping the WSIs data in their usual distribution-which we call natural distribution-for DL training is better than the artificially obtained balanced distribution. We conduct an empirical comparative study with 10 random folds for each distribution, comparing the resulting average performance levels in terms of five different evaluation metrics. Experimental results show the effectiveness of the natural distribution over the balanced one across all the evaluation metrics. CCS CONCEPTS • Computing methodologies → Supervised learning; Image processing; Image segmentation; • Applied computing → Health informatics

    Training Set Class Distribution Analysis for Deep Learning Model - Application to Cancer Detection

    Get PDF
    International audienceDeep learning models specifically CNNs have been used successfully in many tasks including medical image classification. CNN effectiveness depends on the availability of large training data set to train which is generally costly to obtain for new applications or new cases. However, there is a little concrete recommendation about training set creation. In this research, we analyze the impact of different class distributions in the training data to a CNN model. We consider the case of cancer detection task from histopathological images for cancer diagnosis and derive some useful hypotheses about the distribution of classes in the training data. We found that using all the training data leads to the best recall-precision trade-off, while training with a reduced number of examples from some classes, it is possible to inflect the model toward a desired accuracy on a given class

    A Study on the Impact of Class Distribution on Deep Learning - The Case of Histological Images and Cancer Detection

    No full text
    Extended AbstractInternational audienceStudies on deep learning tuning mostly focus on the neural network architectures and algorithms hyperparameters. Another core factor for accurate training is the class distribution of the training dataset. This paper contributes to understanding the optimal class distribution on the case for histological images used in cancer diagnosis. We formulate several hypotheses, which are then tested considering experiments with hundreds of trials. We considered both segmentation and classification tasks considering the U-net and group equivariant CNN (G-CNN). This paper is an extended abstract of another paper published by the authors 1

    Finding a Suitable Class Distribution for Building Histological Images Data Sets Used in Deep Model Training - the Case of Cancer Detection

    No full text
    International audienceThe class distribution of a training data set is an important factor which influences the performance of a deep learning-based system. Understanding the optimal class distribution is therefore crucial when building a new training set which may be costly to annotate. This is the case for histological images used in cancer diagnosis where image annotation requires domain experts. In this paper we tackle the problem of finding the optimal class distribution of a training set to be able to train an optimal model that detects cancer in histological images. We formulate several hypotheses which are then tested in scores of experiments with hundreds of trials. The experiments have been designed to account for both segmentation and cla

    Annotating Satellite Images of Forests with Keywords from a Specialized Corpus in the Context of Change Detection

    No full text
    International audienceThe Amazon rain forest is a vital ecosystem that plays a crucial role in regulating the Earth’s climate and providing habitat for countless species. Deforestation in the Amazon is a major concern as it has a significant impact on global carbon emissions and biodiversity. In this paper, we present a method for detecting deforestation in the Amazon using image pairs from Earth observation satellites. Our method leverages deep learning techniques to compare the images of the same area at different dates and identify changes in the forest cover. We also propose a visual semantic model that automatically annotates the detected changes with relevant keywords. The candidate annotation for images are extracted from scientific documents related to the Amazon region. We evaluate our approach on a dataset of Amazon image pairs and demonstrate its effectiveness in detecting deforestation and generating relevant annotations. Our method provides a useful tool for monitoring and studying the impact of deforestation in the Amazon. While we focus on environment applications of our work by using images of deforestation in the Amazon rain forest to demonstrate the effectiveness of our proposed approach, it is generic enough to be applied to other domains

    Finding a Suitable Class Distribution for Building Histological Images Data Sets Used in Deep Model Training - the Case of Cancer Detection

    No full text
    International audienceThe class distribution of a training data set is an important factor which influences the performance of a deep learning-based system. Understanding the optimal class distribution is therefore crucial when building a new training set which may be costly to annotate. This is the case for histological images used in cancer diagnosis where image annotation requires domain experts. In this paper we tackle the problem of finding the optimal class distribution of a training set to be able to train an optimal model that detects cancer in histological images. We formulate several hypotheses which are then tested in scores of experiments with hundreds of trials. The experiments have been designed to account for both segmentation and cla
    corecore