51 research outputs found

    Projet RAIVES (Recherche Automatique d'Informations Verbales Et Sonores) vers l'extraction et la structuration de données radiophoniques sur Internet

    Get PDF
    Rapport de contrat.Internet est devenu un vecteur important de la communication. Il permet la diffusion et l'échange d'un volume croissant de données. Il ne s'agit donc plus seulement de collecter des masses importantes " d'informations électroniques ", mais surtout de les répertorier, de les classer pour faciliter l'accès à l'information utile. Une information, aussi importante soit-elle, sur un site non répertorié, est méconnue. Il ne faut donc pas négliger la part du " Web invisible ". Le Web invisible peut se définir comme l'ensemble des informations non indexées, soit parce qu'elles ne sont pas répertoriées, soit parce que les pages les contenant sont dynamiques, soit encore parce que leur nature n'est pas ou difficilement indexable. En effet, la plupart des moteurs de recherche se basent sur une analyse textuelle du contenu des pages, mais ne peuvent prendre en compte le contenu des documents sonores ou visuels. Il faut donc fournir un ensemble d'éléments descripteurs du contenu pour structurer les documents afin que l'information soit accessible aux moteurs de recherche. S'agissant de documents sonores, le but de notre projet est donc, d'une part, d'extraire ces informations et, d'autre part, de fournir une structuration des documents afin de faciliter l'accès au contenu. L'indexation par le contenu de documents sonores s'appuie sur des techniques utilisées en traitement automatique de la parole, mais doit être distinguée de l'alignement automatique d'un texte sur un flux sonore ou encore de la reconnaissance automatique de la parole. Ce serait alors réduire le contenu d'un document sonore à sa seule composante verbale. Or, la composante non-verbale d'un document sonore est importante et correspond souvent à une structuration particulière du document. Par exemple, dans le cas de documents radiophoniques, on voit l'alternance de parole et de musique, plus particulièrement de jingles, pour annoncer les informations. Ainsi, nous pouvons considérer un ensemble de descripteurs du contenu d'un document radiophonique : segments de Parole/Musique, " sons clés ", langue, changements de locuteurs associés à une éventuelle identification de ces locuteurs, mots clés et thèmes. Cet ensemble peut être bien entendu enrichi. Extraire l'ensemble des descripteurs est sans doute suffisant pour référencer un document sur Internet. Mais il est intéressant d'aller plus loin et de donner accès à des parties précises du document. Chaque descripteur doit être associé à un marqueur temporel qui donne accès directement à l'information. Cependant, l'ensemble des descripteurs appartenant à des niveaux de description différents, leur organisation n'est pas linéaire dans le temps : un même locuteur peut parler en deux langues sur un même segment de parole, ou encore sur un segment de parole dans une langue donnée, plusieurs locuteurs peuvent intervenir. Il faut donc aussi être capable de fournir une structuration de l'information sur différents niveaux de représentation

    Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiques

    Get PDF
    De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters

    Analyse d'images : Filtrage et segmentation

    Get PDF
    Ouvrage publié avec l'aide du Ministère des affaires étrangères, direction de la coopération scientifique et technique. AVERTISSEMENT Le livre publié en 1995 chez MASSON (EAN13 : 9782225849237) est épuisé. Cette version pdf est une version élaborée à partie de la version préliminaire transmise à l'éditeur. La mise en page est légèrement différente de celle du livre. Malheureusement quelques figures de l'annexe C ont été perdues.International audienceL'analyse d'image touche à l'heure actuelle de nombreux domaines, avec des objectifs aussi variés que l'aide au diagnostic pour les images médicales, la vision artificielle en robotique ou l'analyse des ressources terrestres à partir des images prises par satellite. Le but du traitement de ces images est à la fois simple dans son concept et difficile dans sa réalisation. Simple en effet, puisqu'il s'agit de reconnaître des objets que notre système visuel perçoit rapidement, du moins pour la majorité d'entre eux. Difficile cependant, car dans la grande quantité d'informations contenues dans l'image, il faut extraire des éléments pertinents pour l'application visée et ceci indépendamment de la qualité de l'image. L'analyse d'image s'est donc dotée d'outils et de méthodes puissants issus de domaines aussi variés que les mathématiques, le traitement du signal, ou l'informatique. Cet ouvrage présente un des aspects les plus importants du traitement des images : la " segmentation ". Il récapitule d'abord les grandeurs observables et calculables sur une image et les algorithmes de manipulation des structures de données associées. Il détaille ensuite les traitements préliminaires, tels le filtrage du bruit et les deux types d'approche de la segmentation, l'extraction des contours et celle des régions. Chacune fait l'objet d'une étude théorique et de nombreux résultats illustrent les performances. Une des originalités de l'ouvrage est l'étude comparative des différentes techniques appliquées sur un même corpus d'images réelles

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    Get PDF
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

    Étude comparative des algorithmes dédiés à la classification

    Get PDF

    Prédiction et reconnaissance d'activités dans un habitat intelligent basées sur les séries temporelles et la fouille de données temporelles

    Get PDF
    L'assistance traditionnelle d'une personne atteinte de la maladie d'Alzheimer est une tâche difficile, coûteuse et complexe. La nécessité d’avoir une personne aidante presque tout le temps avec le patient épuise les ressources humaines et financières du système de santé. De plus, la relation est souvent compliquée entre l'aidant et le patient qui souhaite préserver son intimité. L'émergence du domaine de l'intelligence ambiante a permis la conception d’une assistance technologique où un agent artificiel, appelé aussi agent ambiant, vient aider et diminuer le temps passé par l’aidant dans l’habitat du patient. Comme dans l’assistance traditionnelle, l’agent ambiant observe le patient ou son environnement en analysant les mesures envoyées par les différents senseurs installés dans la maison qui est nommée par ce fait un habitat intelligent. Préférablement d’une façon non supervisée, l’agent ambiant se doit d’apprendre le comportement normal du patient qui peut se traduire par la création d’une structure qui définit les différentes activités de la vie quotidienne (AVQ) que le patient est habitué à effectuer. Ensuite, grâce à l’heure courante et aux récentes actions détectées, l’agent ambiant va essayer de reconnaître l’activité entamée par le patient pour être en mesure de détecter des erreurs et proposer de l’aide en comparant les comportements normaux aux récentes actions détectées. Plusieurs problèmes caractérisent cette nouvelle assistance, mais le plus grand défi de cette solution, qui réside dans l’étape de reconnaissance d’activités, est causé par le nombre très élevé des AVQs que nous appelons aussi le nombre d'hypothèses. En effet, comme chaque activité se compose de plusieurs actions, la reconnaissance d’activités se traduit donc par la recherche des récentes actions détectées parmi toutes les actions de toutes les AVQs, et ce, en temps réel. Dans cette thèse, nous proposons des contributions dans les différentes étapes de l’assistance technologique. Nous répondons essentiellement à la problématique de la reconnaissance d’activités par la réduction maximale, à un instant précis, du nombre d'hypothèses. Tout d’abord, nous explorons la fouille de données temporelles et nous présentons notre propre algorithme de création de comportements normaux d’une façon non supervisée. L’algorithme analyse l'historique des senseurs activés afin de découvrir les motifs fréquents fermés qui représentent les modèles d’activités. Ensuite, nous explorons les séries temporelles pour choisir la technique de prédiction la plus adéquate à la prédiction des temps de débuts des différentes AVQs. Une méthode probabiliste est détaillée par la suite pour réduire le nombre d’hypothèses et reconnaître l’activité entamée. Nous terminons notre approche par l’utilisation des séries temporelles multivariées pour la prédiction du temps d’activation de chaque senseur de l’activité reconnue, ce qui aide l’agent ambiant à bien choisir le moment d’intervention pour proposer de l’aide, si nécessaire. Notre approche se base essentiellement sur l'aspect temporel et n'offre pas juste une solution à la problématique de la reconnaissance d'activités, mais elle répond aussi à différentes erreurs, dont celles susceptibles d'être commises par les malades d’Alzheimer comme les erreurs d'initiations qui les empêchent d’amorcer des activités. La validation de notre approche et les tests de ses différentes étapes ont été effectués avec des données réelles enregistrées dans le Laboratoire d’Intelligence Ambiante pour la Reconnaissance d’Activités (LIARA) et les résultats sont satisfaisants
    • …
    corecore