54 research outputs found

    Filtrage d'Arnaques dans un Corpus de Spams : Une application de Filtrar-S à la sécurité du citoyen

    Get PDF
    National audienceThis paper presents the testing of the softwares designed during the Filtrar-S project that is supported by ANR and belongs to the CSOSG 2008 financial session(http://www.filtrar-s.fr). The semantic filtring module of Filtrar-S has been used to find in a spam corpora the spams that are a kinds of scams and are therefore called Scams. This application responds to a need for the Division de Lutte Contre la Cybercriminalité de la gendarmerie nationale and it was conducted in collaboration with the association Signal Spam (http://www.signal-spam.fr). Actual performance is good and demonstrate the relevance of Filtrar-S to solve problems related to security of the citizen.Cet article présente les résultats d'un essai des logiciels conçus et développés dans le cadre du projet Filtrar-S, financé par l'ANR, dans le cadre du programme CSOSG 2008 (http://www.filtrar-s.fr). Il s'agissait d'utiliser Filtrar-S et son module de filtrage sémantique pour filtrer des spams d'arnaques (ou Scams) dans un corpus de spams. Cette application répond à un besoin de la Division de Lutte Contre la Cybercriminalité de la gendarmerie nationale et elle a été menée en collaboration avec l'association Signal-Spam (http://www.signal-spam.fr). Les performances sont bonnes et démontrent la pertinence de Filtrar-S pour résoudre des problèmes liés à la sécurité du citoyen.

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Modèle d'organisation des concepts clés de la traductologie : conception d'un didacticiel d'application

    Full text link
    Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

    Le filtrage basé sur le contenu pour la recommandation de cours (FCRC)

    Get PDF
    RÉSUMÉ La recherche d'un cours sur un sujet précis dans un répertoire d'une ou de plusieurs universités peut s'avérer fastidieuse. Seulement à Montréal, on compte plusieurs milliers de cours universitaires offerts. Le problème est accentué par la multidisciplinarité de certains cours. Les étudiants de cycle supérieur sont responsables de ¬¬¬choisir leur plan d’études, les cours pertinents à leur domaine de recherche, mais ce n’est pas évident qu’ils puissent faire le bon choix des cours sans avoir besoin d’être guidés ou orientés. Encore, les étudiants du premier cycle ont souvent le problème du nombre de places limité dans un groupe de cours. Avec un outil permettant d'établir la similarité entre des cours, les étudiants pourraient trouver rapidement des cours similaires à ceux qui, pour une raison ou une autre, ne sont pas disponibles à un trimestre ou pour leur plan d’étude. A cette fin, plusieurs systèmes de filtrage ont été proposés, mais le filtrage basé sur le contenu pour la recommandation de cours, n’a jamais été abordé avant. L’objectif est de créer un système permettant d’établir la similarité entre les cours en se basant sur leurs descriptions et sur le calcul de leur distance dans un espace vectoriel . Ce mémoire présente le système FCRC (Filtrage basé Contenu pour la Recommandation de Cours) qui fournit des suggestions de cours sur la base de leur similarité sémantique. Les résultats montrent que la mesure de similarité basée sur le cosinus fournit des recommandations relativement précises et complètes. Le coefficient de Dice permet aussi d’obtenir de bons résultats. Ces deux mesures sont les plus performantes. Nous sommes arrivés à identifier plus que cinq cours les plus similaires à l’intérieur des dix premiers résultats.----------ABSTRACT Searching for courses on a topic in a university database or listing of courses can prove difficult. Strictly in Montreal universities, the number of courses range in the thousands. The problem is exacerbated by the fact that many courses are multidisciplinary. For graduate students in particular, who should look for courses on a topic related to their research, it implies that defining their course plan can be a difficult process that requires some assistance. Even when a course that is relevant is found, it often is not offered in the right semester or it is filled to capacity. Therefore, a system that provides a means of finding courses based on their similarity would prove very useful. A number of systems have been developed to provide course recommendations to students, but we aim to define an approach that is solely content-based, using the similarity of course descriptions. The algorithm is based on the vector-space model of the term-document matrix. This thesis presents the FCRC approach (content-based course recommender) which offers recommendations based on course similarity measures. Results show that the similarity measured on the cosine between document vectors offers relatively complete and precise recommendations. The Dice coefficient is also a good measure of similarity. In general, the first 5 of 10 recommendations are relevant based on this approach, and the recall rate is close to 100%

    Exploitation des genres de textes pour assister les pratiques textuelles dans les environnements numériques de travail : le cas du courriel chez des cadres et des secrétaires dans une municipalité et une administration fédérale canadiennes

    Get PDF
    Notre recherche a pour but de déterminer comment les genres textuels peuvent être exploités dans le design des environnements numériques de travail afin de faciliter l’accomplissement des pratiques textuelles de cadres et de secrétaires dans une municipalité et une administration fédérale canadiennes. À cet effet, le premier objectif consiste à évaluer l’aptitude des environnements numériques de travail à supporter les pratiques textuelles (lecture, écriture et manipulation des textes) de ces employés. Le deuxième objectif est de décrire les rôles des genres textuels au cours des pratiques textuelles. Avec l’exemple du courriel, le troisième objectif vise à examiner comment le genre peut être exploité dans une perspective d’assistance à la réalisation des pratiques textuelles dans les environnements numériques de travail. Cette recherche de nature qualitative comporte une méthodologie en deux étapes. La première étape consiste en un examen minutieux des pratiques textuelles, des difficultés rencontrées au cours de celles-ci, du rôle du genre dans les environnements numériques de travail, ainsi que des indices sollicités au cours de la gestion du courriel. Trois modes de collecte des données qualitatives sont utilisés auprès de 17 cadres et de 17 secrétaires issus de deux administrations publiques : l’entrevue semi-dirigée, le journal de bord et l’enquête cognitive. Les résultats sont examinés à l’aide de stratégies d’analyse de contenu qualitative. La deuxième phase comprend la mise au point d’une chaîne de traitement du courriel, visant à étayer notre réflexion sur le genre textuel et son exploitation dans la conception des environnements numériques de travail. Un corpus de 1703 messages est élaboré à partir d’un échantillon remis par deux cadres gouvernementaux. Les résultats permettent d’abord de dresser un portrait général des pratiques de lecture, d’écriture et de manipulation des textes communes et spécifiques aux cadres et aux secrétaires. L’importance du courriel, qui constitue environ 40% des systèmes notés dans les journaux de bord, est soulignée. Les difficultés rencontrées dans les environnements numériques de travail sont également décrites. Dans un deuxième temps, les rôles du genre au cours des pratiques textuelles sont examinés en fonction d’une matrice tenant à la fois compte de ses dimensions individuelles et collectives, ainsi que de ses trois principales facettes ; la forme, le contenu et la fonction. Ensuite, nous présentons un cadre d’analyse des indices affectant la gestion du courriel qui synthétise le processus d’interprétation des messages par le destinataire. Une typologie des patrons de catégorisation des cadres est également définie, puis employée dans une expérimentation statistique visant la description et la catégorisation automatique du courriel. Au terme de ce processus, on observe des comportements linguistiques marqués en fonction des catégories du courriel. Il s’avère également que la catégorisation automatique basée sur le lexique des messages est beaucoup plus performante que la catégorisation non lexicale. À l’issue de cette recherche, nous suggérons d’enrichir le paradigme traditionnel relevant de l’interaction humain-ordinateur par une sémiotique du genre dans les environnements numériques de travail. L’étude propose également une réflexion sur l’appartenance du courriel à un genre, en ayant recours aux concepts théoriques d’hypergenre, de genre et de sous-genre. Le succès de la catégorisation automatique du courriel en fonction de facettes tributaires du genre (le contenu, la forme et la fonction) offre des perspectives intéressantes sur l’application de ce concept au design des environnements numériques de travail en vue de faciliter l’accomplissement des pratiques textuelles par les employés.This research reveals how textual genres can be exploited in digital work environments to improve the textual practices of managers and secretaries in the context of a municipality and the Canadian federal government. The first objective of this research assesses the suitability of digital work environments to support the textual practices of managers and secretaries in their reading, writing and manipulation of texts. The second objective describes the various roles of textual genre during the managerial and secretarial textual practices. Using email as a focal point, the third objective examines how genre can be exploited to advance the benefits of textual practices in the digital work environments. This qualitative research entails a two-phase methodology. By the study of 17 secretaries and 17 managers, the first phase consists of a thorough examination of the current textual practices in the Canadian federal government and municipal contexts and the difficulties encountered during these practices. This phase also considers the various roles of genre in the digital work environments along with the salient clues sought during email management. This study deployed three data collection techniques: semi-structured interviews, diary journals and cognitive inquiries. The results are examined using several qualitative content analysis techniques. The second phase of this research consists of developing an email processing sequence to further expand our understanding of textual genre and its exploitation in the design of digital work environments. The data for this phase uses a corpus of 1703 messages developed from a sample of two governmental managers. The results provide an encompassing overview of practices relating to the reading, writing and manipulation of texts that are both common and specific to managers and secretaries. With over 40% of events recorded in the diary journal relating to email, the importance of this type of system in digital work environments is clearly emphasized. The difficulties encountered in the digital work environments are also described. The role of genre during textual practices is examined according to a matrix illustrating both the individual and collective dimensions of genre in addition to its three main facets: the form, the content and the purpose. We present next an analytic framework of the prominent cues affecting email management to summarize the process of interpreting messages by the recipient. A typology of the categorization patterns of managers is also developed and used in a statistical experiment aiming to automatically describe and categorize email. Resulting from this experiment, we observe specific linguistic behaviours that characterize each email category. It is also revealed that automatic categorization based on message lexicon is more efficient than non-lexical categorization. At the conclusion of this research, we suggest to enrich the traditional human-computer interaction paradigm with a semiotics of genre in the digital work environments. The study also offers a reflection regarding email membership to a specific genre using the theoretical concepts of hypergenre, genre and sub-genre. The success of the automatic categorization of email according to genre-related facets (the content, the form and the purpose) uncovers valuable insights and perspectives in designing digital work environments with the objective of facilitating the vital performance of textual practices by employees.Conseil de recherches en sciences humaines du Canada (CRSH), Faculté des études supérieures de l'Université de Montréa

    La mise en place de moyens juridiques pour protéger les consommateurs sur Internet

    Full text link
    Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

    Livre 010101 (1971-2015) (Le)

    Get PDF
    Datée de novembre 2015, une grande saga du livre numérique de juillet 1971 à nos jours, basée sur le suivi de l\u27actualité du sujet au fil des ans et sur une centaine d’entretiens poursuivis pendant plusieurs années en Europe, en Afrique, en Asie et dans les Amériques. On y parle des auteurs, des éditeurs, des libraires, des bibliothèques, des catalogues, des dictionnaires, des encyclopédies, des formats de livre numérique, des logiciels de lecture et des appareils de lecture. On accorde autant d’importance au livre numérique non commercial (né en 1971) qu’au livre numérique commercial (né en 1998). On n’oublie pas que ce sont les auteurs qui font les livres – y compris numériques. De nombreux auteurs sont donc interviewés dans ces pages. Les projets collaboratifs existent depuis les débuts du web et leurs auteurs sont également interviewés ici. Ce livre est complété par une chronologie détaillée

    Bibliothèques universitaires et formation à distance : comment satisfaire les besoins informationnels des apprenants distants ?

    Get PDF
    Mémoire de fin d\u27étude du diplôme de conservateur, promotion 23, portant sur la formation distance dispensée par les bibliothèques universitaires et les stratégies à développer pour satisfaire les besoins informationnels des apprenants distants
    • …
    corecore