20 research outputs found

    Indexation pour la recherche par le contenu textuel de flux RSS

    Get PDF
    Afin de réduire l intervalle de temps nécessaire entre la publication de l information sur le Web et sa consultation par les utilisateurs, les sites Web reposent sur le principe de la Syndication Web. Les fournisseurs d information diffusent les nouvelles informations à travers des flux RSS auxquels les utilisateurs intéressés peuvent s abonner. L objectif de la thèse est de proposer un système de notification passant à l échelle du Web, prenant en considération le grand nombre d utilisateurs et le débit élevé d items. Nous proposons un index basé sur les mots-clés des requêtes utilisateurs permettant de retrouver ceux-ci dans les items des flux. Trois structures d indexation de souscriptions sont présentées. Un modèle analytique pour estimer le temps de traitement et l espace mémoire de chaque structure est détaillé. Nous menons une étude expérimentale approfondie de l impact de plusieurs paramètres sur ces structures. Pour les souscriptions jamais notifiées, nous adaptons les index étudiés pour prendre en considération leur satisfaction partielle. Afin de réduire le nombre d items reçus par l utilisateur, nous intégrons une deuxième phase de filtrage par nouveauté et diversité considérant l ensemble d items déjà reçus par l utilisateur.Based on a Publish/Subscribe paradigm, Web Syndication formats such as RSS have emerged as a popular means for timely delivery of frequently updated Web content. According to these formats, information publishers provide brief summaries of the content they deliver on the Web, while information consumers subscribe to a number of RSS feeds and get informed about newly published items. The goal of this thesis is to propose a notification system which scales on the Web. To deal with this issue, we should take into account the large number of users on the Web and the high publication rate of items. We propose a keyword-based index for user subscriptions to match it on the fly with incoming items. We study three indexing techniques for user subscriptions. We present analytical models to estimate memory requirements and matching time. We also conduct a thorough experimental evaluation to exhibit the impact of critical workload parameters on these structures. For subscriptions which are never notified, we adapt the indexes to support a partial matching between subscriptions and items. We integrate a diversity and novelty filtering step in our system in order to decrease the number of notified items for short subscriptions. This filtering is based on the set of items already received by the user.PARIS-CNAM (751032301) / SudocSudocFranceF

    La jurisprudence en accès libre à l'ère du contenu généré par les usagers

    Get PDF
    La collaboration et le contenu généré par les usagers, aussi appelé « Web 2. 0 », sont des phénomènes nouveaux, qui bâtissent sur l'ouverture et le foisonnement d'Internet. Les environnements numériques qui emploient ces moyens mettent à contribution la communauté qui gravite autour d'une présence virtuelle afin d'en enrichir l’expérience. Suivant une approche constructiviste, nous explorons commnent la collaboration peut servir les usagers d'une banque de donnée de jugements en accès libre par Internet, comme le site de l'Institut canadien d'information juridique (www.CanLIT.org). La collaboration s'articule grâce à un gabarit d'analyse que nous nommons «Cadre de diffusion de la collaboration». Il comporte deux classes d'objets, les usagers et les documents, qui interagissent selon quatre relations : les liens documentaires, les échanges entre usagers, l'écriture (de l'usager vers le document) et la consommation (du document vers l'usager). Le Cadre de diffusion de la collaboration met en lumière les modalités de la collaboration comme mécanisme de création de contenu dans un contexte numérique, au profit d'une classe de documents. Suite à une analyse les modalités de la jurisprudence comme système documentaire et d'un exposé illustratif des besoins des usagers de la société civile, le Cadre de diffusion de la collaboration est employé pour explorer les mécanismes à retenir pour enrichir le contenu d'un système diffusant des jugements par Internet.User generated content and collaboration, also called « Web 2.0 », offer new possibilities in the context of a thriving and open Internet. Digital environments that employ these production mecanisms allow user communities to enrich a virtual space. Using a constructivist approach, we explore how collaboration can serve the users of an open access database of court rulings, namely the Canadian Legal Information Institute's website (www.CanLU.org). Collaboration is set within a framework that we name the « Collaboration Framework ». There are two classes of objects, users and documents, that interact following four relationships: links between documents, exchanges between users, writing (from users to documents) and consumption (from documents to users). In turn, we can better understand how collaboration functions, given a specific class of documents. Following an analysis of court rulings as a system of documents and an illustration of user needs in civil society, the Collaboration Framework is applied to an open access database of court rulings in order to determine how users can enrich the system's content

    Indexation visuelle et recherche d\u27images sur le web : enjeux et problèmes

    Get PDF
    Si le texte reste très présent sur le web, ce sont désormais des documents multimédia qui s\u27y échangent majoritairement. Comment de tels documents peuvent-ils être cherchés, retrouvés sur la toile dont le système d’indexation et d’organisation est voué au texte ? Comment indexer des documents visuels, qu’est-ce qui est indexable au sein d’images ? C’est ce que ce mémoire se propose d’étudier en se focalisant sur l’indexation des images fixes à travers l’analyse de moteurs de recherche indexant des ressources visuelles, et de plateformes de stockage et de partage d’images. Ce sont ensuite les avantages et les limites de la folksonomie qui sont analysés, puis ceux du géotagging comme nouvelle forme d’indexation, de gestion documentaire et de navigation. Enfin, dans une dernière partie, l’auteure revient sur les présupposés techniques des systèmes d’indexation et de recherche d’images par le contenu et nous livre une analyse des enjeux documentaires, économiques et sociaux de ces procédés

    La classification à facettes pour la gestion des connaissances métier (méthodologie d'élaboration de FolkClassifications à facettes.)

    Get PDF
    Tout d abord, nous abordons les problématiques liées à l organisation et à la gestion des connaissances ainsi que les principes présidant à l élaboration des classifications à facettes. Nous proposons ensuite une synthèse des méthodes existantes d élaboration de classifications à facettes. Nous poursuivons en réalisant une analyse de l impact des types de Systèmes d Information sur l activité de gestion de l information. Ce faisant, nous produisons une analyse de l activité inspirée de la Théorie de l Activité, et influencée par les travaux de la psychologie du travail et de l ergonomie cognitive. Le prototype Hypertagging développé dans le cadre du projet Miipa-Doc fondé sur le tagging des utilisateurs et structuré par les principes de la classification à facettes est présenté. Notre expérimentation sur l élaboration de classifications à facettes pour la gestion des documents de travail est détaillée. Enfin, nous exposons notre méthodologie d élaboration de FolkClassifications à facettes pour la gestion des connaissances métier. Elle vise à appuyer une démarche de gestion des connaissances sur la gestion personnelle de l informationWe address Knowledge Organization and Knowldege Management general issues and we present the basic principles for the development of faceted classifications. Then we introduce a synthesis of existing methods to develop this kind of classification. Next we propose an analysis of effects of Information Systems on information management activities. By doing this, we produce an analysis of the concept of activity inspired by Activity Theory, occupational psychology and french ergonomics. A presentation of Hypertagging prototype developed in the frame of Miipa-Doc research project, based on users tagging and structured by faceted classification principles, is provided. Our experiment about generating faceted classification for document management activities is detailed. Finally, we expose our method for the development of faceted classification for Knowledge Management purposes in the context of specific trades. This Knowledge Management approach is incorporated in Knowledge Organization activities.PARIS-CNAM (751032301) / SudocSudocFranceF

    Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile

    Get PDF
    La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente.Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings

    Numérique : impact sur le cycle de vie du document (Le)

    Get PDF
    Actes du colloque "Le numérique : impact sur le cycle de vie du document" organisé à l\u27université de Montréal par l\u27EBSI et l\u27ENSSIB du 13 au 15 octobre 2004. Son objectif était de traiter de façon interdisciplinaire la problématique suivante : « La numérisation, la diffusion des formats numériques originaux, les nouvelles méthodes d\u27indexation et d\u27analyse du document ainsi que le fonctionnement en réseau changent les données de base de la vie du document qui devient une sorte de phénix incessamment renaissant » (programme du colloque)

    Fédération et amélioration des activités documentaires par la pratique d'annotation collective

    Get PDF
    Daily activities carried out with paper documents are nowadays transposed onto their digital counterparts. A plethora of software enable people to achieve document-related activities. In particular, these comprise information retrieval used while drafting new documents. Documents may later be disseminated, exploited and organized in readers' document repositories. Our study on current systems showed two main limitations. On the one hand, any system meets only one or at most two activities. The underlying activity compartmentalization is detrimental to users—who have to master and juggle several systems—as well as to systems—having partial knowledge of users' needs. On the other hand, systems do not harness the organizational members' document-related activities. The proposed contribution is twofold. Firstly, we designed a model for federating the document-related activities through collective annotation practice. Associated with this model are collective processes intending to give each activity the benefit of the other ones. This also fosters inter-user benefit as people take advantage of the group and vice versa. Actually, the purpose of the proposed approach is twofold: simplifying document access and appropriation while anticipating individuals' needs to offer them unintrusive assistance. Secondly, our approach exploits the organizational members' document repositories. Although they do contain highly valuable information being collected with a lot of efforts, they paradoxically remain dormant. With the aim of harnessing these information sources, we designed a multi-faceted interface for accessing any organization's document resources. This interface allows the exploration of documents as well as users of these documents, according to various dimensions and granularity levels. Our proposals were validated through several experiments and the TafAnnote prototype development. They demonstrate the feasibility of our approach which federates document-related activities with collective annotation practice.Les activités documentaires couramment réalisées sur les documents papier sont aujourd'hui transposées sur leurs homologues électroniques. Ainsi, une kyrielle de systèmes permet de mener à bien les activités liées aux documents. Ils permettent notamment de rechercher de l'information utilisée pour rédiger un document qui peut être ensuite diffusé, exploité et organisé par ses lecteurs dans leur espace documentaire. Notre étude des systèmes existants a permis de révéler deux limites principales. Premièrement, un système ne répond généralement qu'à une seule, voire à deux activités. Ce cloisonnement des activités est préjudiciable à la fois pour les usagers (qui doivent maîtriser et jongler entre de nombreux outils) et pour les systèmes (qui ne possèdent qu'une représentation parcellaire des besoins des usagers). Deuxièmement, les systèmes n'exploitent pas les résultats des activités documentaires des membres organisationnels.Notre contribution comprend deux volets. Premièrement, nous proposons un modèle fédérant les activités documentaires autour de la pratique d'annotation collective. Des processus collectifs y sont associés afin d'exploiter chaque activité documentaire pour enrichir les autres, apportant ainsi une assistance à chaque individu en tirant parti du groupe, et vice versa. Le but de cette approche originale est double : simplifier l'accès et l'appropriation des documents tout en anticipant les besoins de l'usager pour lui offrir une assistance non intrusive. Deuxièmement, nous proposons d'exploiter les espaces documentaires des membres organisationnels. Bien qu'ils contiennent des informations à haute valeur pour l'organisation, collectées au prix de coûteux efforts, ces espaces demeurent paradoxalement en sommeil. Afin de tirer parti de ces espaces documentaires, nous proposons une interface multi-facettes d'accès au capital documentaire d'une organisation. Cette interface permet l'exploration des documents et individus de l'organisation selon différents axes et niveaux de granularité. Nos propositions ont été validées par différentes expérimentations ainsi que par le développement du prototype TafAnnote qui souligne la faisabilité de notre approche fédérant les activités documentaires autour de l'annotation collective

    Usagers & Recherche d'Information

    Get PDF
    La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tâches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systèmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particulièrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information

    L'histoire contemporaine à l'ère numérique / Contemporary History in the Digital Age

    Get PDF
    Depuis plusieurs décennies, les usages du numérique en histoire se multiplient. Mais l'histoire contemporaine est parfois restée à la marge de ce mouvement. Ce livre, qui recouvre divers usages du numérique, ses outils, ses méthodes, sera à la fois une bonne introduction pour les historiens désirant se renseigner sur les usages informatiques en histoire contemporaine, et un outil utile aux chercheurs et aux enseignants plus rompus à cette utilisation
    corecore