87 research outputs found

    Classification ascendante hiérarchique à noyaux et une application aux données textuelles

    Get PDF
    National audienceLa formule de Lance et Williams permet d'unifier plusieurs méthodes de classification ascendante hiérarchique (CAH). Dans cet article, nous suppo-sons que les données sont représentées dans un espace euclidien et nous établis-sons une nouvelle expression de cette formule en utilisant les similarités cosinus au lieu des distances euclidiennes au carré. Notre approche présente les avan-tages suivants. D'une part, elle permet d'étendre naturellement les méthodes classiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquer des méthodes d'écrêtage permettant de rendre la matrice de similarités creuse afin d'améliorer la complexité de la CAH. L'application de notre approche sur des tâches de classification automatique de données textuelles montre d'une part, que le passage à l'échelle est amélioré en mémoire et en temps de traitement; d'autre part, que la qualité des résultats est préservée voire améliorée

    Recherche d'information dans les images de documents

    Get PDF
    L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur. Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants. Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams. Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image. Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents

    Extraction de relations d'associations maximales dans les textes : représentation graphique

    Get PDF

    Transition professionnelle et orientation de rôle dans la fonction de cadre

    Get PDF
    L’article, centré sur les orientations de rôle de nouveaux cadres de l’Action Sociale, prolonge et complète le modèle de la proactivité appliquée aux processus de socialisation organisationnelle. Ce modèle reconnaît au sujet la capacité à agir sur son environnement de travail, à en interpréter les prescriptions; l’orientation de rôle est, dans cette perspective, dépendante des rapports des sujets aux exigences de la tâche, de l’organisation et à celles de son propre développement. Les auteurs estiment qu’elle est également placée sous l’influence de visées et d’engagements afférents aux milieux et activités de socialisation en dehors du travail. Ainsi l’étude empirique qualitative met-elle en évidence les variabilités interindividuelles des modes d’accomplissement du rôle managérial. Elle souligne aussi la nécessité d’une prise en compte de la pluralité des ancrages familiaux, personnels et sociaux des sujets pour rendre intelligibles les processus psychologiques à l’oeuvre dans l’orientation de rôle au cours de la transition professionnelle.This article examines the role orientations of new managers working in the Social Action field who are in an occupational transition phase. It extends and broadens the proactivity model developed in writings on organizational socialization. The latter is viewed as an interactive process which depends not only on the organization’s initiatives but also on the capacities of subjects to “clarify,” direct, develop their role and transform the norms of the organization (Morrison, 1993; Nicholson, 1984). Thus, socialization cannot be reduced to the mere result of pressure in the workplace. Our theoretical approach maintains that although role orientation is based on the subjects’ relations with task requirements and the rules and norms of the organization, it is influenced by the aims and commitments related to the socialization environments and activities of these individuals outside work.The qualitative empirical study presented here focuses on 15 new managers in the Social Action field (a social worker, special-education teachers, a socio-cultural group leader) who have, for 7 to 10 months, been performing managerial duties for the first time in their careers. These subjects underwent semi-structured interviews based on open-ended questions, a number of which dealt with role orientation. Operationally, the latter is characterized by the following indicators: value attached to duties, self-assignment of work objectives, operations related to activity completion or non completion, the aims of the action, time management of work activities, and relations with others inside and outside the workplace.The corpus established through a complete retranscription of the in-depth semi-structured interviews was processed in two ways: through a computerized lexical discourse analysis, using ALCESTE software, and through a standard theme-based content analysis.The results highlight inter-individual variabilities in the way the managerial role is performed.The lexical analysis using ALCESTE brought out four role orientation categories:The theme-based discourse analysis helped to identify three main aims in the work activity:The results obtained by correlating the data of both analyses show that in the occupational transition phase examined, the subjects engage in and perform their new managerial roles in the organization according to differentiated logics and orientations. The inter-individual variabilities observed in the implementation of these roles demonstrate that the latter are not simply driven by the rules and norms prescribed in the organization or solely by the subjects’ developmental aims within it. They are subject to subjective interpretation and meaning. The orientation the subjects give to their role during their occupational transition is also subordinated to their commitments to socialization environments and time outside work.Focalizado en las orientaciones de rol de los nuevos directivos de la Acción Social, el artículo prolonga y completa el modelo de pro-actividad aplicada a los procesos de socialización organizacional. Este modelo reconoce en el sujeto la capacidad de actuar sobre su contexto de trabajo y de interpretar las respectivas prescripciones ; la orientación de rol, desde esta perspectiva, es dependiente de las actitudes de los sujetos respecto a las exigencias de la carga de trabajo, de la organización y a las exigencias de su propio desarrollo. Los autores estiman que la orientación del rol se encuentra igualmente bajo influencia de las metas y compromisos asociados a los sitios y actividades de socialización fuera del trabajo. Así, el estudio empírico cualitativo pone en evidencia las variabilidades interindividuales de los modos de realización del rol directivo. Se resalta también la necesidad de tomar en cuenta la pluralidad de los arraigamientos familiares, personales y sociales de los sujetos para hacer inteligibles los procesos sicológicos que actúan en la orientación del rol durante la transición profesional

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Donner du sens à des documents semi-structurés : de la construction d'ontologies à l'annotation sémantique

    Get PDF
    Chapitre 05 : Donner du sens à des documents semi-structurés : de la construction d'ontologies à l'annotation sémantiqueNational audiencePartie 1 : construction et peuplement d'ontologies à partir de textes : démarche générale - critères de bonne structuration d'une ontologie - outils de Traitement Automatique des Langues pour faciliter la construction d'ontologies - ouvertures Partie 2 : "donner du sens" à des contenus : l'annotation sémantique : associer des données et des modèles sémantiques - démarche générale - quel type de ressource pour caractériser "sémantiquement" des contenus/ des données ? - où l'on retrouve le TAL / ouverture

    Représentation et reconnaissance des signaux acoustiques sous-marins

    Get PDF
    This thesis aims to identify and develop new representation methods of the underwater acoustic signals. Ourgoal is to interpret, recognize and automatically identify underwater signals from sonar system. The idea hereis not to replace the machine petty officer, whose experience and hearing finesse make it indispensable for thisposition, but to automate certain processing information to relieve the analyst and offer support to the decision.In this thesis, we are inspired by what is best in this area: the human. On board a submarine, they are experts inthe analysis of sounds that are entrusted to the listening task signals to identify suspicious sounds. Whatinterests us is the ability of the human to determine the class of a sound signal on the basis of his hearing.Indeed, the human ear has the power to differentiate two distinct sounds through psychoacoustic perceptualcriteria such as tone, pitch, intensity. The operator is also helped by representations of the sound signal in thetime-frequency plane coming displayed on the workstation. So we designed a representation that approximatesthe physiology of the human ear, i.e how humans hear and perceive frequencies. To construct thisrepresentation space, we will use an algorithm that we called the Hearingogram and a denoised version theDenoised Hearingoram. All these representations will input an automatic identification system, which wasdesigned during this thesis and is based on the use of SVM.Cette thèse a pour but de définir et concevoir de nouvelles techniques de représentation des signauxacoustiques sous-marins. Notre objectif est d’interpréter, reconnaître et identifier de façon automatique lessignaux sous-marins émanant du système sonar. L’idée ici n’est pas de substituer la machine à l’officiermarinier, dont l’expérience et la finesse d’ouïe le rendent indispensable à ce poste, mais d’automatiser certainstraitements de l’information pour soulager l’analyste et lui offrir une aide à la décision.Dans cette thèse, nous nous inspirons de ce qui se fait de mieux dans ce domaine : l’humain. A bord d’un sousmarin,ce sont des experts de l’analyse des sons à qui l’on confie la tâche d'écoute des signaux afin de repérerles sons suspects. Ce qui nous intéresse, c’est cette capacité de l’humain à déterminer la classe d’un signalsonore sur la base de son acuité auditive. En effet, l’oreille humaine a le pouvoir de différencier deux sonsdistincts à travers des critères perceptuels psycho-acoustiques tels que le timbre, la hauteur, l’intensité.L’opérateur est également aidé par des représentations du signal sonore dans le plan temps-fréquence quiviennent s’afficher sur son poste de travail. Ainsi nous avons conçu une représentation qui se rapproche de laphysiologie de l’oreille humaine, autrement dit de la façon dont l’homme entend et perçoit les fréquences. Pourconstruire cet espace de représentation, nous utiliserons un algorithme que nous avons appelé l’Hearingogramet sa version débruitée le Denoised Hearingoram. Toutes ces représentations seront en entrée d’un systèmed’identification automatique, qui a été conçu durant cette thèse et qui est basé sur l’utilisation des SVM
    corecore