103 research outputs found

    Étude comparative des algorithmes dédiés à la classification

    Get PDF

    Apprentissage automatique pour la détection de relations d'affaire

    Full text link
    Les documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire.Documents published by companies such as press releases, contain a wealth of information on various business activities. This is a valuable source for business intelligence analysis; but automatic tools are needed to exploit such large volume data. The work described in this thesis is part of a research project on business intelligence, namely we aim at the detection of business relationships between companies described in press releases. In this thesis, we consider business relation detection as a problem of classification. However, the existing classification methods do not allow us to obtain a satisfactory performance. This is mainly due to two problems: the representation of text using all the content words, which do not necessarily a business relationship; and the imbalance between classes. To address the first problem, we propose representations based on words that are between or close to the names of companies involved (which we call pivot words) in order to focus on words having a higher chance to describe a relation. For the second problem, we propose a two-stage classification. This method is more effective than the traditional resampling methods. We tested our approach on a collection of press releases in the automotive industry. Our experiments show that both proposed approaches can improve the classification performance. They perform much better than the traditional feature selection methods and the resampling method. This work shows the feasibility of automatic detection of business relations. The result of this detection could be used in an analysis of business intelligence

    Representation learning for few-shot image classification

    Get PDF
    En tant qu'algorithmes d'apprentissage automatique à la pointe de la technologie, les réseaux de neurones profonds nécessitent de nombreux exemples pour bien fonctionner sur une tâche d'apprentissage. La collecte et l'annotation de multiples échantillons nécessitent un travail humain important et c'est même impossible dans la plupart des problèmes du monde réel tel que l'analyse de données biomédicales. Dans le contexte de la vision par ordinateur, la classification d'images à quelques plans vise à saisir la capacité humaine à apprendre de nouveaux concepts avec peu de supervision. À cet égard, l'idée générale est de transférer les connaissances des catégories de base avec plus d'encadrement vers des classes nouvelles avec peu d'exemples. En particulier, les approches actuelles d'apprentissage à quelques coups pré entraînent un modèle sur les classes de base disponible pour généraliser aux nouvelles classes, peut-être avec un réglage fin. Cependant, la généralisation du modèle actuel est limitée en raison de certaines hypothèses lors de la préformation et de restrictions lors de l'étape de mise au point. Cette thèse vise à assouplir trois hypothèses des modèles d'apprentissage à quelques plans actuels et nous proposons un apprentissage de représentation pour la classification d'images à quelques plans. Tout d'abord, le gel d'un modèle préformé semble inévitable dans la phase de réglage fin en raison de la forte possibilité de surentraînement sur quelques exemples. Malheureusement, l'apprentissage par transfert avec une hypothèse de modèle gelé limite la capacité du modèle puisque le modèle n'est pas mis à jour avec aucune connaissance des nouvelles classes. Contrairement au gel d'un modèle, nous proposons un alignement associatif qui permet d'affiner et de mettre à jour le réseau sur de nouvelles catégories. Plus précisément, nous présentons deux stratégies qui détectent et alignent les nouvelles classes sur les catégories de base hautement liées. Alors que la première stratégie pousse la distribution des nouvelles classes au centre de leurs catégories de base associées, la seconde stratégie effectue une correspondance de distribution à l'aide d'un algorithme d'entraînement contradictoire. Dans l'ensemble, notre alignement associatif vise à éviter le surentraînement et à augmenter la capacité du modèle en affinant le modèle à l'aide de nouveaux exemples et d'échantillons de base associés. Deuxièmement, les approches actuelles d'apprentissage à quelques coups effectuent le transfert de connaissances vers de nouvelles classes distinctes sous l'hypothèse uni modale, où tous les exemples d'une seule classe sont représentés par un seul cluster. Au lieu de cela, nous proposons une approche d'apprentissage de l'espace des caractéristiques basée sur le mélange (MixtFSL) pour déduire une représentation multimodale. Alors qu'un précédent travail basé sur un modèle de mélange d'Allen et al. citeallen2019infinite est basé sur une méthode de clusters classique de manière non différentielle, notre MixtFSL est un nouveau modèle multimodale de bout en bout et entièrement différentielle. MixtFSL capture la multimodale des classes de base sans aucun algorithme de clusters classique à l'aide d'un cadre en deux étapes. La première phase s'appeler formation initiale et vise à apprendre la représentation préliminaire du mélange avec une paire de fonctions de perte. Ensuite, l'étape suivante progressive, la deuxième étape, stabilise la formation avec un cadre de formation de type enseignant-élève utilisant une fonction de perte unique. Troisièmement, contrairement aux techniques actuelles à quelques prises de vue consistant à représenter chaque exemple d'entrée avec une seule entité à la fin du réseau, nous proposons un extracteur d'entités d'ensemble et des ensembles d'entités correspondantes qui assouplissent l'hypothèse typique basée sur une seule entité en raisonnant sur des ensembles d'entités. Ici, nous émettons l'hypothèse que l'hypothèse d'une seule caractéristique est problématique dans la classification d'images à quelques prises de vue puisque les nouvelles classes sont différentes des classes de base préformées. À cette fin, nous proposons nouvel extracteur de caractéristiques d'ensemble d'apprentissage profond basé sur les réseaux de neurones hybrides convolution-attention. De plus, nous suggérons trois métriques ensemble à ensemble non paramétriques pour séduire la classe de l'entrée donnée. Cette thèse utilise plusieurs indicateurs standards publiés dans la littérature sur l'apprentissage en peu d'exemples et l'ossature de réseau pour évaluer les méthodes que nous proposons.As the current state-of-the-art machine learning algorithms, deep neural networks require many examples to perform well on a learning task. Gathering and annotating many samples requires significant human labor, and it is even impossible in most real-world problems such as biomedical data analysis. Under the computer vision context, few-shot image classification aims at grasping the human ability to learn new concepts with little supervision. In this respect, the general idea is to transfer knowledge from base categories with more supervision to novel classes with few examples. In particular, the current few-shot learning approaches pre-train a model on available base classes to generalize to the novel classes, perhaps with fine-tuning. However, the current model's generalization is limited because of some assumptions in the pre-training and restrictions in the fine-tuning stage. This thesis aims to relax three assumptions of the current few-shot learning models, and we propose representation learning for few-shot image classification. First, freezing a pre-trained model looks inevitable in the fine-tuning stage due to the high possibility of overfitting on a few examples. Unfortunately, transfer learning with a frozen model assumption limits the model capacity since the model is not updated with any knowledge of the novel classes. In contrast to freezing a model, we propose associative alignment that enables fine-tuning and updating the network on novel categories. Specifically, we present two strategies that detect and align the novel classes to the highly related base categories. While the first strategy pushes the distribution of the novel classes to the center of their related base categories, the second strategy performs distribution matching using an adversarial training algorithm. Overall, our associative alignment aims to prevent overfitting and increase the model capacity by refining the model using novel examples and related base samples. Second, the current few-shot learning approaches perform transferring knowledge to distinctive novel classes under the uni-modal assumption, where all the examples of a single class are represented with a single cluster. Instead, we propose a mixture-based feature space learning (MixtFSL) approach to infer a multi-modal representation. While a previous mixture-model-based work of Allen et al. [1] is based on a classical clustering method in a non-differentiable manner, our MixtFSL is a new end-to-end multi-modal and fully differentiable model. MixtFSL captures the multi-modality of base classes without any classical clustering algorithm using a two-stage framework. The first phase is called initial training and aims to learn preliminary mixture representation with a pair of loss functions. Then, the progressive following stage, the second stage, stabilizes the training with a teacher-student kind of training framework using a single loss function. Third, unlike the current few-shot techniques of representing each input example with a single feature at the end of the network, we propose a set feature extractor and matching feature sets that relax the typical single feature-based assumption by reasoning on feature sets. Here, we hypothesize that the single feature assumption is problematic in few-shot image classification since the novel classes are different from pre-trained base classes. To this end, we propose a new deep learning set feature extractor based on the hybrid convolution-attention neural networks. Additionally, we offer three non-parametric set-to-set metrics to infer the class of the given input. This thesis employs several standard benchmarks of few-shot learning literature and network backbones to evaluate our proposed methods

    Une approche basée sur les SMA et méta-heuristique pour la prédiction (PHM) médicale

    Get PDF
    Au cours des dernières années, l’intelligence artificielle (IA) ne cesse de révolutionner le monde. Elle est intégrée dans plusieurs secteurs tels que l’économie, l’industrie, la biologie, la médecine, etc. L’utilisation de l’IA dans en médecine présente un grand intérêt pour les chercheurs qui exploitent l’approche prédictive pour son importance dans la prise de décision. Elle ouvre des perspectives prometteuses pour améliorer la qualité des soins au profit du patient à travers une prise en charge personnalisée, une bonne détection des symptômes et une exploitation des résultats d’analyse (imagerie médicale, rapports médicaux, tests sanguins,etc.) pour un meilleur diagnostic. Cependant, malgré l’impact positif de l’IA sur le secteur sanitaire, elle est confrontée à de nombreux challenges notamment, la manipulation des big data, la diversité des offres de soins, la durée du diagnostic, la complexité et la hausse des coûts de traitement. La médecine prédictive vise à déterminer la probabilité d’atteindre une maladie, à prédire la récidive, le taux de létalité et la propagation d’une maladie dans une zone. L’application des technologies telles que la biotechnologie, la génomique et les techniques de l’IA (IoT, SMA, apprentissage automatique, etc.) peuvent améliorer la modélisation distribuée des systèmes intelligents et les méthodes de classification. L’objectif principal de cette étude est de proposer une approche intelligente pour : • améliorer la qualité du diagnostic médical et la détection des pathologies en permettant d’éviter de soumettre les patients à des examens intrusifs; • définir des stratégies thérapeutiques plus adaptées aux situations des patients; • optimiser les parcours de soins (détection précoce, gain de temps, coûts, etc.). Le cancer du sein est l’une des causes les plus fréquentes de décès chez la femme. De plus, au courant des trois dernières années, l’apparition de la pandémie Covid-19 a laissé un impact négatif sur des milliers de personnes dans le monde. Cette crise sanitaire a également donné un dur coup à l’évolution de l’économie au niveau mondial. L’application de nos objectifs pour la prise en charge de ces deux pathologies constitue un segment important de ce projet, sachant que la quantité et la qualité des données disponibles sont des éléments clés sur les applications de l’IA en santé

    The effect of interference on reactivation of spatial memories in reconsolidation model by using an innovative experimental paradigm in healthy young adults at the behavioral level

    Get PDF
    La mémoire déclarative est définie comme notre capacité à acquérir des faits et des événements qui font l'objet d'un souvenir conscient. Après la phase d'encodage, de nouvelles mémoires subissent des transformations hors ligne, qui permettent aux traces initialement labiles de se fixer dans la structure physique du cerveau; un processus appelé consolidation. Il existe également des preuves accumulées qu'une fois qu'une mémoire consolidée est réactivée ou récupérée, cette dernière passe par un processus de reconsolidation au cours duquel elle peut être dégradée, maintenue ou améliorée. Dans la présente étude, nous avons cherché à répondre à la question suivante: Les traces consolidées récupérées sont-elles susceptibles d'être perturbées par le même type d'information? Et quel serait l'effet de l'interférence sur différents tests de reconnaissance comparant les deux groupes. Méthode: Nous avons développé une tâche basée sur le travail de Sonni et al. (Sonni and Spencer 2015), où les sujets devaient apprendre à localiser 36 images d'objets du quotidien situées sur un écran d'ordinateur. 40 sujets en bonne santé (25,03 ± 3,66) ont participé à cette étude. Groupe 1: Interférence (20 sujets); Groupe 2: contrôle (20 sujets). Résultats: Nous avons constaté que l'administration de la matrice B après rappel de la première matrice (Groupe 1) interférait avec la reconsolidation de la mémoire, et augmentait ainsi significativement la quantité d'oubli observée lors de la reprise de la séance le Jour 3. En revanche, nous ne pouvions pas trouver un effet d'interférence dans le groupe de contrôle. Il y avait significativement plus de taux de fausses alarmes dans le groupe d'interférence. Nos résultats confirment l'hypothèse de reconsolidation de la mémoire déclarative, mais des travaux supplémentaires sont nécessaires pour déterminer si les substrats neuronaux et neurophysiologiques qui interviennent dans la reconsolidation sont identiques ou différents de ceux impliqués dans la consolidation.Declarative memory is defined as our capacity to acquire facts and events that are subject to conscious recollection. After the encoding phase, new memories undergo offline transformations, which allow the initially labile traces to become fixed into the physical structure of the brain; a process called consolidation. There is also accumulating evidence that once a consolidated memory is reactivated or retrieved, the latter goes through a reconsolidation process during which it can be degraded, maintained or enhanced. In the present study, we sought to answer the following question: Are retrieved consolidated traces susceptible to disruption by the same type of information? Method: We developed a task based on work by Sonni et al. (Sonni and Spencer 2015), in which subjects were required to learn the location of 36 everyday objects images located on a computer screen. 40 healthy subjects (25.03 ± 3.66) participated in this study. Group 1: Interference (20 subjects); Group 2: control (20 subjects). Results: We found that the administration of the matrix B after recall of the first matrix (Group 1) interfered with reconsolidation of the memory, and thus significantly increase the amount of forgetting seen in the retest session on Day 3. In contrast we could not find any interference effect in the control group. Our results confirm the reconsolidation hypothesis for declarative memory, but further work is needed to identify whether the neural and neurophysiological substrates mediating reconsolidation are the same or different from those involved during consolidation

    Apprentissage quantique

    Full text link
    Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

    Estimation de posture 3D à partir de données imprécises et incomplètes : application à l'analyse d'activité d'opérateurs humains dans un centre de tri

    Get PDF
    Dans un contexte d’étude de la pénibilité et de l’ergonomie au travail pour la prévention des troubles musculo-squelettiques, la société Ebhys cherche à développer un outil d’analyse de l’activité des opérateurs humains dans un centre de tri, par l’évaluation d’indicateurs ergonomiques. Pour faire face à l’environnement non contrôlé du centre de tri et pour faciliter l’acceptabilité du dispositif, ces indicateurs sont mesurés à partir d’images de profondeur. Une étude ergonomique nous permet de définir les indicateurs à mesurer. Ces indicateurs sont les zones d’évolution des mains de l’opérateur et d’angulations de certaines articulations du haut du corps. Ce sont donc des indicateurs obtenables à partir d’une analyse de la posture 3D de l’opérateur. Le dispositif de calcul des indicateurs sera donc composé de trois parties : une première partie sépare l’opérateur du reste de la scène pour faciliter l’estimation de posture 3D, une seconde partie calcule la posture 3D de l’opérateur, et la troisième utilise la posture 3D de l’opérateur pour calculer les indicateurs ergonomiques. Tout d’abord, nous proposons un algorithme qui permet d’extraire l’opérateur du reste de l’image de profondeur. Pour ce faire, nous utilisons une première segmentation automatique basée sur la suppression du fond statique et la sélection d’un objet dynamique à l’aide de sa position et de sa taille. Cette première segmentation sert à entraîner un algorithme d’apprentissage qui améliore les résultats obtenus. Cet algorithme d’apprentissage est entraîné à l’aide des segmentations calculées précédemment, dont on sélectionne automatiquement les échantillons de meilleure qualité au cours de l’entraînement. Ensuite, nous construisons un modèle de réseau de neurones pour l’estimation de la posture 3D de l’opérateur. Nous proposons une étude qui permet de trouver un modèle léger et optimal pour l’estimation de posture 3D sur des images de profondeur de synthèse, que nous générons numériquement. Finalement, comme ce modèle n’est pas directement applicable sur les images de profondeur acquises dans les centres de tri, nous construisons un module qui permet de transformer les images de profondeur de synthèse en images de profondeur plus réalistes. Ces images de profondeur plus réalistes sont utilisées pour réentrainer l’algorithme d’estimation de posture 3D, pour finalement obtenir une estimation de posture 3D convaincante sur les images de profondeur acquises en conditions réelles, permettant ainsi de calculer les indicateurs ergonomique

    La dynamique du traitement des visages : du percept à la familiarité

    Get PDF
    Reconnaître rapidement les visages familiers est une fonction fondamentale qui joue un rôle important dans nos interactions sociales. D'un point de vue évolutionniste, il semble en effet crucial de pouvoir rapidement déterminer si la personne qui nous fait face est amie ou ennemie pour adapter son comportement en conséquence. C'est sans doute pour cela que, dans l'opinion publique, mais également dans la littérature scientifique, la reconnaissance des visages est supposée être un processus très rapide, efficace et exécuté sans effort. Cependant, la reconnaissance des visages familiers est-elle réellement si rapide ? Ne serait-ce pas simplement une idée reçue ? Rapide, admettons, mais à quelle vitesse ? En adaptant des protocoles de catégorisation visuelle rapide (tâche de go/no-go) développés initialement pour étudier la rapidité du système visuel et en mettant en place de nouveaux protocoles de catégorisation ultra-rapide (" Speed and Accuracy Boosting procedure " ; SAB), nous avons pu déterminer les latences comportementales et électrophysiologiques les plus précoces pour reconnaître explicitement un visage célèbre. Nous nous sommes intéressés d'une part à la reconnaissance de type " bottom-up " (reconnaître plusieurs visages célèbres sans savoir au préalable de qui il s'agit) et d'autre part à la reconnaissance " top-down " (reconnaître une personne en particulier parmi des inconnus). Le temps de réaction minimum pour reconnaître des visages célèbres parmi des inconnus (reconnaissance " bottom-up ") est d'environ 360-390 ms, ce temps de réponse ne pouvant être amélioré ni par un apprentissage intensif des stimuli (Article 1), ni par un protocole de catégorisation ultra-rapide (Article 2). Ce temps de réaction est environ 100 ms plus tardif que lors d'une tâche de détection de visage (Article 1) ou de genre (Article 1). Ces latences sont très différentes lorsque la procédure SAB est appliquée à une reconnaissance de type " top-down ", descendant à environ 300 ms contre 270 ms dans une tâche de détection de visages (Article 3). De plus, en appliquant une méthode de MVPA (Multi-Variate Pattern Analysis) à des données d'EEG de surface, nous avons montré que l'activité neuronale liée à la reconnaissance des visages célèbres était disponible dès 230 ms après la présentation du stimulus (voire 200 ms pour le sujet les plus rapides) alors que l'activité neuronale liée à a détection d'un visage humain parmi des visages d'animaux était disponible dés 80 ms (Articles 4 et 5). L'activité neuronale était de plus fortement corrélée aux temps de réponses minimales en reconnaissance, confirmant ainsi son rôle dans la prise de décision. Nous discutons ces latences au regard des modèles de la voie visuelle ventrale et des modèles de la reconnaissance des visages. Nous distinguons trois modèles différents pouvant théoriquement être à l'origine de la familiarité et en favorisons un en particulier.Recognizing familiar faces rapidly seems crucial in everyday life. The actual speed at which a familiar face can be recognized remains however unknown. The current thesis aimed at tracking down the minimal behavioral and neural processing time necessary to recognize known faces. To address this issue, we used different go/no-go paradigms and a new task relying on highly time-constraining task (the Speed and Accuracy Boosting procedure, "SAB"). Relying on minimum reaction times analyses, we report that 360-390 ms are needed to recognize famous faces among unknown ones when bottom-up recognition task is required (subjects did not know the identity of the celebrities that they had to recognize before the test; this situation can be compare to the ecological situation of unexpectedly bumping into someone in the street) (Article 1). This latency could not be decreased even after extensive training (Article 1), or using the SAB (Article 2). Overall, this is 100 ms more than when subjects have to detect human faces in natural scene or process gender (Article 1). Bottom-up recognition is much slower than top-down recognition (recognizing somebody whom you know you are going to meet, corresponding to the ecological situation of looking for someone in particular in a crowd), which takes about 300 ms (Article 3). Additionally, MVPA (Multivariate pattern analysis) was applied on EEG data recorded from the scalp surface to determine at which latency familiarity could be read-out. We report that famous faces could be robustly distinguished from unknown faces as soon as 230 ms after stimulus onset. This familiarity-selective signal was directly linked to the subject's recognition speed (Article 5). Such latency was agin much longer than the latencies observed in face categorisation task, in which case category could be read out starting around 80 ms post-stimulus (Article 4). These latencies are with respect to the different models of visual ventral stream and models of face recognition. Three main models are identified and one is favored in particular

    Reconnaissance des actions humaines : méthode basée sur la réduction de dimensionnalité par MDS spatio-temporelle

    Get PDF
    L’action humaine dans une séquence vidéo peut être considérée comme un volume spatio- temporel induit par la concaténation de silhouettes dans le temps. Nous présentons une approche spatio-temporelle pour la reconnaissance d’actions humaines qui exploite des caractéristiques globales générées par la technique de réduction de dimensionnalité MDS et un découpage en sous-blocs afin de modéliser la dynamique des actions. L’objectif est de fournir une méthode à la fois simple, peu dispendieuse et robuste permettant la reconnaissance d’actions simples. Le procédé est rapide, ne nécessite aucun alignement de vidéo, et est applicable à de nombreux scénarios. En outre, nous démontrons la robustesse de notre méthode face aux occultations partielles, aux déformations de formes, aux changements d’échelle et d’angles de vue, aux irrégularités dans l’exécution d’une action, et à une faible résolution.Human action in a video sequence can be seen as a space-time volume induced by the concatenation of silhouettes in time. We present a space-time approach for human action recognition, which exploits global characteristics generated by the technique of dimensionality reduction MDS and a cube division into sub-blocks to model the dynamics of the actions. The objective is to provide a method that is simple, inexpensive and robust allowing simple action recognition. The process is fast, does not require video alignment, and is applicable in many scenarios. Moreover, we demonstrate the robustness of our method to partial occlusion, deformation of shapes, significant changes in scale and viewpoint, irregularities in the performance of an action, and low-quality video

    Face Detection and Verification using Local Binary Patterns

    Get PDF
    This thesis proposes a robust Automatic Face Verification (AFV) system using Local Binary Patterns (LBP). AFV is mainly composed of two modules: Face Detection (FD) and Face Verification (FV). The purpose of FD is to determine whether there are any face in an image, while FV involves confirming or denying the identity claimed by a person. The contributions of this thesis are the following: 1) a real-time multiview FD system which is robust to illumination and partial occlusion, 2) a FV system based on the adaptation of LBP features, 3) an extensive study of the performance evaluation of FD algorithms and in particular the effect of FD errors on FV performance. The first part of the thesis addresses the problem of frontal FD. We introduce the system of Viola and Jones which is the first real-time frontal face detector. One of its limitations is the sensitivity to local lighting variations and partial occlusion of the face. In order to cope with these limitations, we propose to use LBP features. Special emphasis is given to the scanning process and to the merging of overlapped detections, because both have a significant impact on the performance. We then extend our frontal FD module to multiview FD. In the second part, we present a novel generative approach for FV, based on an LBP description of the face. The main advantages compared to previous approaches are a very fast and simple training procedure and robustness to bad lighting conditions. In the third part, we address the problem of estimating the quality of FD. We first show the influence of FD errors on the FV task and then empirically demonstrate the limitations of current detection measures when applied to this task. In order to properly evaluate the performance of a face detection module, we propose to embed the FV into the performance measuring process. We show empirically that the proposed methodology better matches the final FV performance
    corecore