1,704 research outputs found

    Data Science : une formation internationale de niveau Master en science des données

    Get PDF
    International audienceWe present the international training program in Data Science at master 2 level. This program is supported by both Grenoble Alpes University and Grenoble INP. In this article, we elaborate on the specific features of the program, its strategic position, operating and historical features, the detailed contents of courses and perspectives of evolution.Nous présentons la formation internationale de niveau master 2 en Data Science de l'Université Grenoble Alpes et de Grenoble INP : spécificités et positionnement de la formation, fonctionnement et aspects historiques de sa création, programme de cours détaillé et perspectives d'évolution

    Apprentissage automatique d'un chunker pour le français

    Get PDF
    National audienceNous décrivons dans cet article comment nous avons procédé pour apprendre automatiquement un chunker à partir du French Treebank, en utilisant les CRF (Conditional Random Fields). Nous avons réalisé diverses expériences, pour reconnaître soit l'ensemble de tous les chunks possibles, soit les seuls groupes nominaux. Nous évaluons le chunker obtenu aussi bien de manière interne (sur le French Treebank lui-même) qu'externe (sur un corpus distinct transcrit de l'oral), afin de mesurer sa robustesse. ABSTRACT Machine Learning of a chunker for French We describe in this paper how to automatically learn a chunker for French, from the French Treebank and CRFs (Conditional Random Fields). We did several experiments, either to recognize every possible kind of chunks, or to focus on nominal phrases only. We evaluate the obtained chunker on internal data (i.e. also extracted from the French Treebank) as well as on external (i.e from a distinct corpus) ones, to measure its robustness

    Influence des paramètres climatiques sur l’incidence de la COVID-19 de mars 2020 à décembre 2022 dans la région de Niamey au Niger

    Get PDF
    Introduction : La maladie à coronavirus 2019 (COVID-19) est une maladie infectieuse due au nouveau coronavirus. Son émergence est un enjeu de santé publique mondial. Le rôle des facteurs climatiques dans sa transmission n’est pas déterminé avec précision. Objectif : Cette étude analyse la corrélation entre les paramètres climatiques (température, humidité relative, durée d’ensoleillement, vitesse du vent) et la dynamique de la COVID-19.  Méthodologie : C’est une étude rétrospective, analytique, utilisant les données épidémiologiques de la COVID 19 (nombre quotidien de cas confirmés et des décès) de mars 2020 à décembre 2022. Ils ont été recueillis à la Direction de la Surveillance et la Riposte aux Epidémies (DSRE). Les données climatiques ont été recueillies à la Direction de la Météorologie Nationale (DMN). La méthode statistique utilisée est le coefficient de corrélation ‘’r’’ entre les variables climatiques et morbi-mortalité de la COVID-19. Résultats : L’analyse uni variée montre que le nombre de cas le plus élevé était observé en septembre. L’humidité relative minimale la plus élevée fut observée en août. L’analyse multivariée révèle une corrélation forte et positive entre la vitesse moyenne du vent et la morbidité  (r= 0,14). La vitesse maximale du vent  (r= 0,13), la vitesse minimale du vent (r= 0,15) influencent la survenue des nouveaux cas de la COVID-19. Conclusion : L’humidité relative a impact sur la morbi-mortalité, par opposition à la température. Le plus grand nombre des cas intervient en novembre, décembre et janvier, les mois durant lesquelles les températures sont plus basses. Ces informations sont utiles pour planifier et soutenir la lutte contre la COVID-19.   Introduction: Coronavirus 2019 (COVID-19) is an infectious disease caused by a new coronavirus. Its emergence is a global public health issue. The role of climatic factors in its transmission is not precisely determined. Objective: This study analyzes the correlation between climatic parameters (temperature, relative humidity, sunshine duration, wind speed) and the dynamics of COVID-19. Methodology: This is a retrospective, analytical study using COVID 19 epidemiological data (daily number of confirmed cases and deaths) from March 2020 to December 2022. They were collected at the Direction de la Surveillance et la Riposte aux Epidémies (DSRE). Climatic data were collected from the Direction de la Météorologie Nationale (DMN). The statistical method used was the "r" correlation coefficient between the COVID-19 climate and morbidity-mortality variables. Results: Univariate analysis shows that the highest number of cases occurred in September. Minimum relative humidity was highest in August. Multivariate analysis revealed a strong, positive correlation between mean wind speed and morbidity (r= 0.14). Maximum wind speed (r= 0.13) and minimum wind speed (r= 0.15) influenced the occurrence of new cases of COVID-19. Conclusion: Relative humidity has an impact on morbidity and mortality, as opposed to temperature. The greatest number of cases occurs in November, December and January, the months when temperatures are lowest. This information is useful for planning and supporting the fight against COVID-19

    Induction of root and pattern lexicon for unsupervised morphological analysis of Arabic

    Get PDF
    We propose an unsupervised approach to learning non-concatenative morphology, which we apply to induce a lexicon of Arabic roots and pattern templates. The approach is based on the idea that roots and patterns may be revealed through mutually recursive scoring based on hypothesized pattern and root frequencies. After a further iterative refinement stage, morphological analysis with the induced lexicon achieves a root identification accuracy of over 94%. Our approach differs from previous work on unsupervised learning of Arabic morphology in that it is applicable to naturally-written, unvowelled text

    Peut-on bien chunker avec de mauvaises étiquettes POS ?

    Get PDF
    http://www.taln2014.org/site/actes-en-ligne/actes-en-ligne-articles-taln/National audienceDans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS. Abstract. In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS label

    A quelles conditions une taxinomie du lexique est-elle possible en TAL

    Get PDF
    International audienceDans cet article, nous montrons l'exploitation du modèle taxinomique dans la représentation du lexique pour le TAL et nous essayons, en conclusion, de répondre à la question du titre : à quelles conditions une taxinomie du lexique est-elle possible en TAL

    Détection et apprentissage automatique d'objets pour la modélisation de milieux intérieurs

    Get PDF
    Session "Posters" - Site conf.: http://liris.cnrs.fr/rfia2012National audienceNous présentons dans cet article une nouvelle méthode pour la modélisation des objets et de la scène dans un environnement intérieur inconnu. Les milieux intérieurs sont composés d'une quantité d'objets susceptibles d'être déplacés. Nous souhaitons exploiter les multiples passages d'une caméra dans un même lieu et tirer parti de ces déplacements pour modéliser d'une part la structure de la scène et d'autre part les objets le constituant. Nous proposons une association de méthodes de SLAM métrique et de reconnaissance de lieu pour détecter et représenter les objets de façon automatique et enrichir la connaissance de la scène. Abstract: This paper presents a new solution for modeling the scene and the objects in unknown environments. Many objects in indoor environments are likely to be moved. We want to make the most of several observations of a camera in the same scene to represent the different places and objects. We propose to combine methods of metrical localization and place recognition to detect and model objects and extend the scene model

    Apprentissage automatique pour le codage cognitif de la parole

    Get PDF
    Depuis les années 80, les codecs vocaux reposent sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms). Les chercheurs ont essentiellement ajusté et combiné un nombre limité de technologies disponibles (transformation, prédiction linéaire, quantification) et de stratégies (suivi de forme d'onde, mise en forme du bruit) pour construire des architectures de codage de plus en plus complexes. Dans cette thèse, plutôt que de s'appuyer sur des stratégies de codage à court terme, nous développons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractéristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous résolvons trois problèmes de complexité croissante, à savoir la classification, la prédiction et l'apprentissage des représentations. La classification est un élément courant dans les conceptions de codecs modernes. Dans un premier temps, nous concevons un classifieur pour identifier les émotions, qui sont parmi les attributs à long terme les plus complexes de la parole. Dans une deuxième étape, nous concevons un prédicteur d'échantillon de parole, qui est un autre élément commun dans les conceptions de codecs modernes, pour mettre en évidence les avantages du traitement du signal de parole à long terme et non linéaire. Ensuite, nous explorons les variables latentes, un espace de représentations de la parole, pour coder les attributs de la parole à court et à long terme. Enfin, nous proposons un réseau décodeur pour synthétiser les signaux de parole à partir de ces représentations, ce qui constitue notre dernière étape vers la construction d'une méthode complète de compression de la parole basée sur l'apprentissage automatique de bout en bout. Bien que chaque étape de développement proposée dans cette thèse puisse faire partie d'un codec à elle seule, chaque étape fournit également des informations et une base pour la prochaine étape de développement jusqu'à ce qu'un codec entièrement basé sur l'apprentissage automatique soit atteint. Les deux premières étapes, la classification et la prédiction, fournissent de nouveaux outils qui pourraient remplacer et améliorer des éléments des codecs existants. Dans la première étape, nous utilisons une combinaison de modèle source-filtre et de machine à état liquide (LSM), pour démontrer que les caractéristiques liées aux émotions peuvent être facilement extraites et classées à l'aide d'un simple classificateur. Dans la deuxième étape, un seul réseau de bout en bout utilisant une longue mémoire à court terme (LSTM) est utilisé pour produire des trames vocales avec une qualité subjective élevée pour les applications de masquage de perte de paquets (PLC). Dans les dernières étapes, nous nous appuyons sur les résultats des étapes précédentes pour concevoir un codec entièrement basé sur l'apprentissage automatique. un réseau d'encodage, formulé à l'aide d'un réseau neuronal profond (DNN) et entraîné sur plusieurs bases de données publiques, extrait et encode les représentations de la parole en utilisant la prédiction dans un espace latent. Une approche d'apprentissage non supervisé basée sur plusieurs principes de cognition est proposée pour extraire des représentations à partir de trames de parole courtes et longues en utilisant l'information mutuelle et la perte contrastive. La capacité de ces représentations apprises à capturer divers attributs de la parole à court et à long terme est démontrée. Enfin, une structure de décodage est proposée pour synthétiser des signaux de parole à partir de ces représentations. L'entraînement contradictoire est utilisé comme une approximation des mesures subjectives de la qualité de la parole afin de synthétiser des échantillons de parole à consonance naturelle. La haute qualité perceptuelle de la parole synthétisée ainsi obtenue prouve que les représentations extraites sont efficaces pour préserver toutes sortes d'attributs de la parole et donc qu'une méthode de compression complète est démontrée avec l'approche proposée.Abstract: Since the 80s, speech codecs have relied on short-term coding strategies that operate at the subframe or frame level (typically 5 to 20ms). Researchers essentially adjusted and combined a limited number of available technologies (transform, linear prediction, quantization) and strategies (waveform matching, noise shaping) to build increasingly complex coding architectures. In this thesis, rather than relying on short-term coding strategies, we develop an alternative framework for speech compression by encoding speech attributes that are perceptually important characteristics of speech signals. In order to achieve this objective, we solve three problems of increasing complexity, namely classification, prediction and representation learning. Classification is a common element in modern codec designs. In a first step, we design a classifier to identify emotions, which are among the most complex long-term speech attributes. In a second step, we design a speech sample predictor, which is another common element in modern codec designs, to highlight the benefits of long-term and non-linear speech signal processing. Then, we explore latent variables, a space of speech representations, to encode both short-term and long-term speech attributes. Lastly, we propose a decoder network to synthesize speech signals from these representations, which constitutes our final step towards building a complete, end-to-end machine-learning based speech compression method. The first two steps, classification and prediction, provide new tools that could replace and improve elements of existing codecs. In the first step, we use a combination of source-filter model and liquid state machine (LSM), to demonstrate that features related to emotions can be easily extracted and classified using a simple classifier. In the second step, a single end-to-end network using long short-term memory (LSTM) is shown to produce speech frames with high subjective quality for packet loss concealment (PLC) applications. In the last steps, we build upon the results of previous steps to design a fully machine learning-based codec. An encoder network, formulated using a deep neural network (DNN) and trained on multiple public databases, extracts and encodes speech representations using prediction in a latent space. An unsupervised learning approach based on several principles of cognition is proposed to extract representations from both short and long frames of data using mutual information and contrastive loss. The ability of these learned representations to capture various short- and long-term speech attributes is demonstrated. Finally, a decoder structure is proposed to synthesize speech signals from these representations. Adversarial training is used as an approximation to subjective speech quality measures in order to synthesize natural-sounding speech samples. The high perceptual quality of synthesized speech thus achieved proves that the extracted representations are efficient at preserving all sorts of speech attributes and therefore that a complete compression method is demonstrated with the proposed approach
    • …
    corecore