20 research outputs found

    Étude de la classification des bactériophages

    Get PDF
    Les bactériophages (i.e., virus de bactéries) constituent l'un des groupes d'organismes les plus abondants dans la biosphère. Ils jouissent d'une très grande biodiversité. Nos connaissances partielles de ces microorganismes sont sans cesse remises en cause par de nouvelles découvertes et le recensement est loin d'être terminé. Il existe bien des classifications basées sur les critères de morphologie et d'homologie génétique, mais celles-ci ne tiennent pas compte de l'évolution caractéristique des virus qui comprend à la fois la transmission verticale (évolution classique) et horizontale (évolution réticulée) de l'information. De plus, ces classifications ne disent rien à propos des ancêtres communs des espèces. Il y a donc beaucoup de possibilités d'affiner la taxonomie virale existante. Dans cette étude, nous présentons une nouvelle approche de classification des bactériophages, basée sur des méthodes heuristiques tirées des sciences cognitives de la catégorisation. Cette approche originale vise à reconstruire l'histoire évolutive des organismes viraux, en tenant compte de l'hypothèse d'évolution classique ainsi que l'hypothèse d'évolution réticulée, i.e., les transferts horizontaux de gènes (THG). En d'autres termes, la classification proposée prend en considération d'une part, l'approche traditionnelle d'analyse phylogénétique qui inclut la reconstruction d'arbres d'espèces par les méthodes de distances et d'inférence bayésienne et la reconstruction de séquences de protéines ancestrales par la méthode Tree-HMM en tenant compte des substitutions, des insertions et des délétions de caractères génétiques [Diallo et al. 2006 ; Felsenstein 1981], et d'autre part, l'approche de détection des transferts horizontaux par la méthode de réconciliation topologique de l'arbre d'espèces et l'arbre de gène [Makarenkov et al. 2008]. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Classification, Catégorisation, Phylogénie, Taxonomie, Virus, Bactériophages, Transferts horizontaux de gènes, Reconstruction ancestrale

    Linguistique Cognitive et modèles catégoriaux : Quelques considérations épistémologiques

    Get PDF
    Cet article a pour ambition de questionner les fondements des approches catégoriales souples, non essentialistes, desquels dépend l’architecture théorique de modèles linguistiques actuels et notamment, ici, de la Linguistique Cognitive américaine. Celle-ci, en effet, considère acquises et indiscutables les données de la psychologie cognitive – il en va de son engagement, dit « cognitif », à embrasser les résultats des disciplines connexes des sciences de la cognition. Après avoir réexposé les points essentiels de la théorie roschéenne – au travers, en particulier, des quelques articles séminaux – nous soulignons les apories auxquelles elle a dû rapidement faire face et auxquelles elle a, seulement en partie, su réagir, questionnons la souplesse du modèle et sa critique, partiale, du modèle aristotélicien, et proposons de clarifier la problématique catégoriale en scindant prototypes conceptuel et sémantique. Nous arguons enfin que c’est au mépris des critiques disciplinaires internes que la LC a importé des pratiques qui fragilisent un pan entier de son assise épistémologique.This article aims at questioning the foundations of non-essentialist categorial approaches on which contemporary linguistic models heavily rely. Cognitive Linguistics, in particular, considers unquestionable the data provided by cognitive psychology – the « cognitive commitment », as it is called, indeed urges to embrace the results of related empirical disciplines. After reexposing the roschian theory – out of a reading of its seminal articles – the author underlines the contradictions it was soon to be mired in, questions its partial understanding of the aristotelician model, and proposes to clarify the categorial issue by separating conceptual and semantic prototypicality. The author argues this is despite disciplinary controversy that CL imported results and practises which eventually shake its epistemological ground

    Suivi de l’évolution des thèmes de publications scientifiques dans les communautés d’auteur·e·s et leurs co-citations

    Get PDF
    Dans la communauté scientifique, l’information est principalement diffusée par le biais de publications scientifiques. L’étude de l’évolution des thèmes de recherche dans le temps recèle une importance indéniable pour le monde universitaire. Le but étant pour les chercheur·e·s de connaitre les nouvelles tendances et orientations scientifiques. La détection, le suivi et la modélisation des communautés dans les réseaux sociaux dynamiques ont été des sujets très étudiés au cours de ces dernières années. Malgré l’importance traditionnelle accordée aux approches structurelles, l’analyse des réseaux de communautés basée sur le contenu n’est qu’une tendance encore très peu exploitée. Dans notre recherche, nous nous intéressons à l’étude conjointe de l’extraction et du suivi de l’évolution des thèmes de publications dans les réseaux de communautés d’auteur·e·s reliés entre eux par des co-citations. Nous considérons qu’un thème de recherches académiques peut être lié étroitement et directement à un ensemble de co-auteur·e·s collaborant étroitement entre eux afin de produire des articles appartenant à un domaine ou un thème scientifique précis. C’est ainsi que le changement dans la structure du réseau caractérise davantage les événements sociaux comme des projets en commun ou travaux dans la même orientation thématique. Cet ensemble d’auteur·e·s peut donc être représenté sous la forme d’un graphe dont les nœuds sont les auteur·e·s eux-mêmes, tandis que les liens de ce graphe représentent une co-citation sur le même article. Notre étude suit l’évolution de ces communautés d’auteur·e·s dans le temps en étudiant les caractéristiques sémantiques à partir des titres d’articles et mots-clés (seules données disponibles sur le contenu des articles dans l’ensemble des données fournies). Pour l’extraction thématique nous avons utilisé l’ingénierie des caractéristiques représentant chaque titre, en combinant les vecteurs obtenus par les modèles thématiques LSA, PLSA et LDA, pondérés avec TF-IDF, avec des vecteurs issus d’un modèle de l’apprentissage profond qui est Word2Vec. Les vecteurs résultants ont été soumis à des classificateurs (Régression logistique, Machine à vecteur de support) pour l’obtention de l’étiquetage thématique automatique des publications. Il s’avère que les meilleurs résultats ont été obtenus en concaténant les vecteurs obtenues par la LDA aux vecteurs produits par Word2Vec et SVM comme classificateur. Pour la prévision des événements critiques que peut subir une communauté au fil du temps, nous proposons un modèle de risque général qui utilise des techniques d’analyse de survie. Après l’extraction des caractéristiques topologiques et sémantiques jugées importantes, nous les avons soumises à l’analyse de CoxPH qui permet de déterminer l’impact de chaque variable explicative sur la prédiction d’un événement qu’une communauté peut subir à un instant donné

    Modélisation des signes dans les ontologies biomédicales pour l'aide au diagnostic.

    Get PDF
    Introduction : Établir un diagnostic médical fiable requiert l identification de la maladie d un patient sur la base de l observation de ses signes et symptômes. Par ailleurs, les ontologies constituent un formalisme adéquat et performant de représentation des connaissances biomédicales. Cependant, les ontologies classiques ne permettent pas de représenter les connaissances liées au processus du diagnostic médical : connaissances probabilistes et connaissances imprécises et vagues. Matériel et méthodes : Nous proposons des méthodes générales de représentation des connaissances afin de construire des ontologies adaptées au diagnostic médical. Ces méthodes permettent de représenter : (a) Les connaissances imprécises et vagues par la discrétisation des concepts (définition de plusieurs catégories distinctes à l aide de valeurs seuils ou en représentant les différentes modalités possibles). (b) Les connaissances probabilistes (les sensibilités et les spécificités des signes pour les maladies, et les prévalences des maladies pour une population donnée) par la réification des relations ayant des arités supérieures à 2. (c) Les signes absents par des relations et (d) les connaissances liées au processus du diagnostic médical par des règles SWRL. Un moteur d inférences abductif et probabiliste a été conçu et développé. Ces méthodes ont été testées à l aide de dossiers patients réels. Résultats : Ces méthodes ont été appliquées à trois domaines (les maladies plasmocytaires, les urgences odontologiques et les lésions traumatiques du genou) pour lesquels des modèles ontologiques ont été élaborés. L évaluation a permis de mesurer un taux moyen de 89,34% de résultats corrects. Discussion-Conclusion : Ces méthodes permettent d avoir un modèle unique utilisable dans le cadre des raisonnements abductif et probabiliste, contrairement aux modèles proposés par : (a) Fenz qui n intègre que le mode de raisonnement probabiliste et (b) García-crespo qui exprime les probabilités hors du modèle ontologique. L utilisation d un tel système nécessitera au préalable son intégration dans le système d information hospitalier pour exploiter automatiquement les informations du dossier patient électronique. Cette intégration pourrait être facilitée par l utilisation de l ontologie du système.Introduction: Making a reliable medical diagnosis requires the identification of the patient s disease based on the observation of signs. Moreover, ontologies provide an adequate and efficient formalism for medical knowledge representation. However, classical ontologies do not allow representing knowledge associated with medical reasoning such as probabilistic, imprecise, or vague knowledge. Material and methods: In the current work, general knowledge representation methods are proposed. They aim at building ontologies fitting to medical diagnosis. They allow to represent: (a) imprecise or vague knowledge by discretizing concepts (definition of several distinct categories thanks to threshold values or by representing the various possible modalities), (b) probabilistic knowledge (sensitivity, specificity and prevalence) by reification of relations of arity greater than 2, (c) absent signs by relations and (d) medical reasoning and reasoning on the absent signs by SWRL rules. An abductive reasoning engine and a probabilistic reasoning engine were designed and implemented. The methods were evaluated by use of real patient records. Results: These methods were applied to three domains (the plasma cell diseases, the dental emergencies and traumatic knee injuries) for which the ontological models were developed. The average rate of correct diagnosis was 89.34 %. Discussion-Conclusion: In contrast with other methods proposed by Fenz and García-crespo, the proposed methods allow to have a unique model which can be used both for abductive and probabilistic reasoning. The use of such a system will require beforehand its integration in the hospital information system for the automatic exploitation of the electronic patient record. This integration might be made easier by the use of the ontology on which the system is based.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Une structure associative bidirectionnelle d'auto-encodage permettant l'apprentissage et la catégorisation perceptuels

    Get PDF
    Les humains sont continuellement exposés à des stimulations pour lesquelles leur système perceptivo-cognitif doit créer des représentations mnésiques. Tout en créant un code interne de composantes, ce système doit être en mesure de reconnaître, d'identifier, et de discriminer ces objets lors de prochaines occurrences. Ce processus s'effectue par la création et la mise à jour d'une mémoire épisodique d'exemplaires à dimensionnalité réduite. De plus, le système cognitif doit regrouper les objets similaires en catégories, tout en adaptant le contenu de la mémoire suite à l'ajout d'informations produit par la rencontre de nouveaux objets. Ces processus de niveau « objet » et « catégorie » s'effectuent de façon séparée, par le biais de deux mémoires.\ud Jusqu'à maintenant, aucun modèle formel satisfaisant n'était en mesure de rendre compte de cette variété de comportements humains sans sacrifier la simplicité et l'élégance du système initial pour simuler l'un d'eux. Le modèle FEBAM (pour Feature-Extracting Bidirectional Associative Memory) a été créé dans le but de répondre à cette incapacité de beaucoup de modèles existants à effectuer des tâches cognitives et perceptuelles à l'aide d'un codage interne créé de façon autonome, comme le font les humains. Basé sur une architecture neuronale associative bidirectionnelle, FEBAM peut reproduire les comportements d'autres réseaux de neurones artificiels dont les processus dynamiques sont basés sur l'extraction de composantes, la création de bassins d'attracteurs, ou encore le partitionnement de données (« clustering »), et ce, en utilisant une seule architecture, règle de transmission et procédure d'apprentissage. Dans la présente thèse, il sera montré qu'avec un nombre minimal de principes définitoires, le modèle pourra effectuer des tâches telles que la création autonome d'un code interne de composantes, le développement autonome d'une mémoire d'exemplaires parfaits, ainsi que l'identification et la catégorisation autonomes. Il sera aussi montré, grâce à la proposition d'un mécanisme itératif de croissance de l'architecture, que les catégories créées par le réseau peuvent être réorganisées suite à la présentation de nouvelles informations perceptuelles au système. On montrera également que FEBAM préserve les capacités d'une mémoire autoassociative récurrente (dont il est inspiré), tout en améliorant certains des comportements de cette dernière. Le modèle FEBAM sera également étendu au cas supervisé. Dans ce cas, le modèle FEBAM-RA (RA pour Response Association), grâce à un module supplémentaire, associera les représentations internes des stimuli à leur identité ou à leur appartenance catégorielle prédéfinies. Cette extension se fera sans avoir à ajouter des principes définitoires: ainsi, on utilisera ici la même règle d'apprentissage, la même règle de transmission, et une généralisation de l'architecture de FEBAM. Grâce à cet ajout, le modèle sera en mesure de reproduire de façon qualitative l'effet de la pré-exposition perceptuelle sur la rapidité de l'apprentissage identificatif supervisé, ainsi que l'effet de difficulté de la tâche lorsque l'on compare l'identification et la catégorisation supervisées (dans une situation de tâches simultanées). La contribution principale de cette thèse repose donc dans la parcimonie des principes utilisés. En effet, grâce à un nombre minimal de postulats définitoires, on modélisera donc des processus de traitement d'objets et de catégories, et ce, de façon autonome ou supervisée. Ce projet de recherche constituant la première étape de développement de l'approche FEBAM, quelques améliorations à l'approche de base seront proposées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Modélisation cognitive, Réseaux de neurones artificiels, Extraction de composantes, Catégorisation, Identification

    L'abduction en conception architecturale : une sémiose hypostatique

    Get PDF
    Cette thèse développe un modèle sémiotique de l’abduction pour représenter un processus de conception architecturale. Elle formalise ce processus par une dualisation hypostatique du rapport sémiotique entre un problème de conception, saisi en tant que signe, et la possibilité de sa matérialisation géométrique. La dualisation réintègre ce signe dans le domaine des systèmes de savoir-concevoir utilisés en conception architecturale, et par conséquent, elle génère de nouvelles solutions architecturales. L’abduction modifie les connaissances préalables engagées dans la production d’une solution (l’hypothèse) et en introduit de nouvelles. La complexité du processus de conception implique, au niveau méthodologique et à partir d’une position épistémologique constructiviste, l’intégration de la subjectivité du concepteur dans le modèle. Ainsi résulte une incertitude des interactions entre problème de conception, production de solution, concepteur et contexte. La sémiotisation de l’abduction architecturale explicite le rôle central de l’interprétation dans la création d’une solution. D’ailleurs, la dualisation s’appuie sur la théorie des possibilités pour opérationnaliser le calcul interprétatif incertain et pour valider les hypothèses générées. En retour, la gestion de la propagation de cette incertitude, dans le modèle sémiotique, facilite l’identification et la formulation des solutions, et rend possible une émergence observationnelle de la nouveauté. Le modèle développé est appliqué à un cas de transformations architecturales géométriques dans un milieu urbain fortement caractérisé.This thesis develops a semiotic model of abduction to represent a process of architectural design. It formalizes this process by the means of a hypostatic dualization, applied to the semiotic relationship between, on the one hand, a design problem, considered as a sign, and on the other, the possibility of its geometric materialization. The dualization reintegrate this sign in the domain of know-how systems used in architectural design, and consequently, it generates new architectural solutions. Abduction modifies and augments the prior knowledge involved in producing the solution (the hypothesis). From a constructivist stance and the ensuing methodological viewpoint, the complexity of the design process implies embedding the designer’s subjectivity in the model. Thus arises an uncertainty about the interactions among design problem, solution production, designer and context. Semiotizing architectural abduction reveals the central role played by interpretation in creating a solution. Besides, dualization relies on possibility theory to formalize the resulting, and uncertain, interpretation calculus, and to validate the obtained hypotheses. In return, managing the uncertainty propagation within the semiotic model, facilitates the identification and the formulation of architectural solutions and allows for an observational emergence of novelty. The developed model is applied to a case of architectural geometric transformations in a heavily characterized neighborhood

    Techniques d'analyse dynamique des média sociaux pour la relation client

    Get PDF
    This thesis is in the field of data mining and in the context of Customer Relationship Management (CRM). With the emergence of social media, companies today have seen the need for an interchannel (or cross-channel) strategy in which they keep track of their clients' histories through a consistent combination of multiple channels. The goal of this thesis is to develop new data mining methods which allow predicting customer behaviors using data collected from multiple channels such as social media, call center¿ We are interested in all types of customer behaviors that characterized their engagement with respect to the company. First of all, we perform a needs analysis in terms of data mining for interchannel CRM strategy. Next, we propose a new method of prediction of customer behaviors in the context of interchannel CRM. In our method, we use a social attributed network to represent the data from multiple channels and perform incremental learning based on latent factor models. We then carry out experiments on both synthetic and real data. We show that our method based on the latent factor models is capable of leveraging informative latent factors from interchannel data. In future works, we consider some ways to improve the performance of our method, especially latent factor models that are able to leverage different types of relational correlation between individuals in the social graph.Cette thèse d'informatique en fouille de données et apprentissage automatique s'inscrit dans le contexte applicatif de la gestion de la relation client (Customer Relationship Management ou CRM). Avec l'émergence des média sociaux, les entreprises perçoivent actuellement la nécessité d'une stratégie de relation client intercanale dans laquelle elles suivent le parcours du client sur l¿ensemble des canaux d¿interactions tels que les média sociaux, la hot line¿ et cela de manière integrée. L'objectif applicatif de la thèse est de concevoir de nouvelles techniques permettant de prédire les comportements du client à partir des données issues de ces multiples canaux. Nous nous intéressons aux comportements qui caractérisent l'engagement du client vis-à-vis de l'entreprise. Nous effectuons d'abord une analyse des besoins dans laquelle nous montrons la nécessité des nouvelles techniques de fouilles de données pour une stratégie de relation client intégrant plusieurs canaux de nature différente. Nous introduisons ensuite une nouvelle méthode d'apprentissage incrémental basée sur les modèles à facteurs latents et sur la représentation de réseau social attribué. Nous effectuons ensuite des expérimentations sur des données synthétiques et réelles. Nous montrons que notre méthode de réduction de dimension est capable d'extraire des variables latentes informatives pour prédire les comportements des clients à partir de données intercanales. Dans les perspectives, nous proposons quelques pistes d'amélioration de notre méthode, notamment d'autres modèles à facteurs latents permettant d'exploiter différents types de corrélations entre les individus dans le graphe social

    Modélisation multi-échelles de la morphologie urbaine à partir de données carroyées de population et de bâti

    Get PDF
    Since a couple of decades the relationships between urban form and travel patterns are central to reflection on sustainable urban planning and transport policy. The increasing distribution of regular grid data is in this context a new perspective for modeling urban structures from measurements of density freed from the constraints of administrative division. Population density data are now available on 200 meters grids covering France. We complete these data with built area densities in order to propose two types of classified images adapted to the study of travel patterns and urban development: classifications of urban fabrics and classifications of morphotypes of urban development. The construction of such classified images is based on theoretical and experimental which raise methodological issues regarding the classification of a statistically various urban spaces. To proceed exhaustively those spaces, we proposed a per-pixel classification method of urban fabrics by supervised transfer learning. Hidden Markov random fields are used to take into account the dependencies in the spatial data. The classifications of morphotypes are then obtained by broadening the knowledge of urban fabrics. These classifications are formalized from chorematique theoretical models and implemented by qualitative spatial reasoning. The analysis of these classifications by methods of quantitative spatial reasoning and factor analysis allowed us to reveal the morphological diversity of 50 metropolitan areas. It highlights the relevance of these classifications to characterize urban areas in accordance with various development issues related to the density or multipolar developmentLa question des liens entre forme urbaine et transport se trouve depuis une vingtaine d'années au cœur des réflexions sur la mise en place de politiques d'aménagement durable. L'essor de la diffusion de données sur grille régulière constitue dans ce cadre une nouvelle perspective pour la modélisation de structures urbaines à partir de mesures de densités affranchies de toutes les contraintes des maillages administratifs. A partir de données de densité de population et de surface bâtie disponibles à l'échelle de la France sur des grilles à mailles de 200 mètres de côté, nous proposons deux types de classifications adaptées à l'étude des pratiques de déplacement et du développement urbain : des classifications des tissus urbains et des classifications des morphotypes de développement urbain. La construction de telles images classées se base sur une démarche de modélisation théorique et expérimentale soulevant de forts enjeux méthodologiques quant à la classification d'espaces urbains statistiquement variés. Pour nous adapter au traitement exhaustif de ces espaces, nous avons proposé une méthode de classification des tissus urbains par transfert d'apprentissage supervisé. Cette méthode utilise le formalisme des champs de Markov cachés pour prendre en compte les dépendances présentes dans ces données spatialisées. Les classifications en morphotypes sont ensuite obtenus par un enrichissement de ces premières images classées, formalisé à partir de modèles chorématiques et mis à œuvre par raisonnement spatial qualitatif. L'analyse de ces images classées par des méthodes de raisonnement spatial quantitatif et d'analyses factorielles nous a permis de révéler la diversité morphologique de 50 aires urbaines françaises. Elle nous a permis de mettre en avant la pertinence de ces classifications pour caractériser les espaces urbains en accord avec différents enjeux d'aménagement relatifs à la densité ou à la multipolarit

    Contribution à la surveillance des systèmes de production à l'aide des réseaux de neurones dynamiques : Application à la e-maintenance

    No full text
    Alain BOURJAULT : Professeur à l'ENSMM de Besançon, Jean-Marc FAURE : Professeur à l'ISMCM-CESTI de Paris Denis HAMAD : Professeur à Université du Littoral Côte d'Opale, Calais Raphaël LABOURIER : PDG Sté. AVENSY Ingénierie, Besançon Daniel NOYES : Professeur à l'ENI de Tarbes Daniel RACOCEANU : Maître de Conférences à l'Université de Franche-Comté Jean-Pierre THOMESSE : Professeur à l'ENSEM-INPL de Nancy, Noureddine ZERHOUNI : Professeur à l'ENSMM de BesançonThe industrial monitoring methods are divided into two categories: monitoring methods based on the existence of the equipment formal model, and those which not use any equipment formal model. Generally, there are many uncertainties in the formal model and for complex industrial equipment, it is very difficult to obtain a correct mathematical model. This thesis presents an application of the artificial neural networks to the industrial monitoring. We propose a new architecture of Radial Basis Function Networks which exploits the dynamic properties of the locally recurrent architectures for taking into account the input data temporal aspect. Indeed, the consideration of the dynamic aspect requires rather particular neural networks architectures with special training algorithms which are often very complicated. In this sense, we propose an improved version of the k-means algorithm which allows to determine easily the neural network parameters. The validation tests show that at the convergence of the learning algorithm, the neural network is situated in the zone called « good generalization zone ». The neural network was then decomposed into elementary functions easily interpretable in industrial automation languages. The applicative part of this thesis shows that a real-time monitoring treatment is possible thanks to the automation architectures. The neural network loaded in a PLC is completely configurable at distance by the TCP/IP communication protocol. An Internet connection allows then a distant expert to follow the evolution of its equipment, and also to validate the artificial neural network learning.Les méthodes de surveillance industrielle sont divisées en deux catégories : méthodes de surveillance avec modèle formel de l'équipement, et méthodes de surveillance sans modèle de l'équipement. Les modèles mathématiques formels des équipements industriels sont souvent entachés d'incertitudes et surtout difficiles à obtenir. Cette thèse présente l'application des réseaux de neurones artificiels pour la surveillance d'équipements industriels. Nous proposons une architecture de Réseaux à Fonctions de base Radiales qui exploite les propriétés dynamiques des architectures localement récurrentes pour la prise en compte de l'aspect temporel des données d'entrée. En effet, la prise en compte de l'aspect dynamique nécessite des architectures de réseaux de neurones particulières avec des algorithmes d'apprentissage souvent compliqués. Dans cette optique, nous proposons une version améliorée de l'algorithme des k-moyennes qui permet de déterminer aisément les paramètres du réseau de neurones. Des tests de validation montrent qu'à la convergence de l'algorithme d'apprentissage, le réseau de neurones se situe dans la zone appelée « zone de bonne généralisation ». Le réseau de neurones a été ensuite décomposé en fonctions élémentaires facilement interprétables en langage automate. La partie applicative de cette thèse montre qu'un traitement de surveillance en temps réel est possible grâce aux architectures à automates programmables industriels. Le réseau de neurones chargé dans l'automate est entièrement configurable à distance par le protocole de communication TCP/IP. Une connexion Internet permet alors à un expert distant de suivre l'évolution de son équipement et également de valider l'apprentissage du réseau de neurones artificiel
    corecore