6 research outputs found

    GEoTweet: exploration des tweets géolocalisés à Genève

    Get PDF
    Que découvre-t-on sur la société genevoise quand on modélise des frontières au sein d’un réseau social tel que Twitter ? Comment la visualisation des tweets géolocalisés nous permet-elle de saisir la variété des communautés linguistiques à Genève ? Le projet GEoTweet propose des réponses à ces questions de recherche, à travers la mise en place d’une infrastructure permettant de récolter les tweets, de les explorer et de les interroger. Il implémente des modalités techniques d’accès, de stockage et d’exploitation des tweets géolocalisés à partir du streaming public mis à disposition par Twitter via son API, explore les tweets géolocalisés dans un contexte spatio-temporel défini (Genève et ses alentours), et teste des formes de visualisation des données géolocalisées en considérant leur potentiel analytique. Le premier axe de recherche concerne les frontières linguistiques virtuelles. Les tweets géolocalisés donnent des informations sur la population résidente et, en même temps, sur les flux volatiles d’autres catégories d’utilisateurs de l’espace urbain genevois. Le deuxième axe de recherche concerne les convergences et les divergences entre les frontières géopolitiques et les frontières virtuelles, et met en évidence leur perméabilité et leur influence réciproque. Le troisième axe de recherche concerne la qualité de données récoltées et leur fiabilité, à travers l’analyse de l’intégration entre différents media sociaux géolocalisés, les procédures d’élimination des robots et l’importance des sauvegardes pour le stockage. Le projet GEoTweet ouvre des perspectives additionnelles d’exploration et d’analyse des données, et est le point de départ d’une série d’événements grand public visant à la vulgarisation du big data

    Évaluation de six moteurs de recherche comme sources de veille dans le cadre d’une veille concernant trois sujets sur une période de deux semaines

    Get PDF
    La mise en place d’un dispositif de veille est devenue aujourd’hui d’une importance capitale pour les entreprises qui veulent gérer la surcharge informationnelle et rester compétitives. Cependant, elles ne disposent pas toujours des ressources nécessaires et utilisent principalement les moteurs de recherche pour surveiller les marchés. Ce projet de recherche a l’ambition d’évaluer les qualités de six moteurs de recherche en tant que sources de veille et d’utiliser exclusivement le flux RSS pour les surveiller, de manière à fournir des recommandations les concernant et poser quelques jalons pour une future étude. Quatre questions de recherche ont d’abord été établies, touchant à la pertinence, la précision, l’éclectisme et l’exhaustivité, afin de pouvoir explorer notre sujet et satisfaire nos objectifs d’évaluation des moteurs. Nous avons consulté la littérature pour la mise en place d’une méthodologie, mais n’avons pas trouvé d’études équivalentes. Afin de pallier ce manque, nous avons mené une réflexion sur les outils et le processus à employer, consacrant ainsi une majorité du temps imparti à cette phase de la recherche. Notre travail se déploie ainsi en six chapitres. Nous contextualisons d’abord notre recherche, puis nous fournissons les éléments méthodologiques, nous analysons ensuite les données collectées pour enfin en proposer une interprétation. Les résultats démontrent que globalement Bing est la source plus précise avec un taux de 40.27%, cependant notre recherche révèle qu’un moteur ne peut pas répondre à tous les besoins informationnels. En effet, lorsqu’il s’agit d’évaluer les résultats sous le prisme de différents sujets de veille, d’autres moteurs se montrent plus performants. Notre projet de recherche constitue une proposition tant pour l’approche méthodologique que pour l’analyse des données, nous espérons donc qu’il fournisse des bases propices à des réflexions futures

    Evaluation of the quality of Alexa’s metrics

    Get PDF
    Alexa is a tool that can easily be confused by name with the voice device that Amazon proposes, but in reality, it is a web traffic tool. Very little is known about how it functions and where it gets data from. With so little information available, how is it possible to know whether the tool is of good value or not. The ability to compare Alexa with other tools such as Google Analytics gives insight into the quality of metrics and makes it possible to judge its transparency, reliability, trustworthiness and flexibility. To achieve this a state of the art on the subject was held, portraying elements relative to the metrics, the tools and the methods, this gave a direction in which to take the study. This lead the way to a much more practical side of the project, actually dealing with and assessing data. With a call being sent out to multiple networks, a sample of 10 websites was created, they all varied greatly but they also held important information that would help answer the research questions. A strict work methodology was undertaken to ensure the data would not be tainted and that it remained usable in order to facilitate the analysis of the data, it also ensured no backtracking would be necessary. The findings were not as striking as expected, as some results were more similar than originally predicted, although the correlation between the numbers was very low. Hardly any websites from the sample presented results that were constantly similar, albeit one, there was also one metric that would have data that bore no resemblance between the different tools. In addition to the results emitted by the data and charts numerous limitations attached to the tools were identified and it was obvious that they added challenges into giving conclusive results. Even though Alexa presents itself to be a useful tool to the everyday individual it does have quite a few limitations that a more consequent tool does not possess. There are evidently also improvements to be made when it comes to the standardization of such tools in order to make their use easier for all. Not all the results found in this study were conclusive but the door is open for a more in-depth project that would answer the additional questions that came up

    Helve'tweet: exploration d'un million de tweets géolocalisés en Suisse, février-août 2017

    Get PDF
    Réseau social utilisé activement par 8% de la population suisse, Twitter permet à ses utilisateurs de géolocaliser leurs messages. Cette étude exploratoire quantitative, basée sur des messages géolocalisés en Suisse écrits entre le 18 février et le 31 août 2017, fait suite au projet GEoTweet consacré aux tweets genevois en 2014-2015. Elle se propose de répondre à trois questions de recherche pour évaluer les possibilités et les limites de l’utilisation des données fournies par l’API de Twitter lors des recherches sur la Suisse, dans les domaines de la sociologie des données et des sciences de l’information. Le focus est porté plus spécifiquement sur l’exploitation des données de géolocalisation, sur la problématique de l’identification des langues et sur les critères définissant un tweet suisse dans une perspective d’archivage. Après l’introduction et la revue de littérature, le rapport présente la méthodologie utilisée, les biais identifiés et les outils créés pour les mesurer, les éviter ou du moins les minimiser. Une concordance a ainsi été créée entre les place.id de Twitter et la liste officielle des communes suisses pour pallier au caractère non vérifié (en partie obsolètes, en partie erronées) des données géographiques fournies par Twitter. Trois séries de tests ont également été menés pour vérifier la fiabilité de l’algorithme de reconnaissance de langue de Twitter pour l’échantillon. Ils montrent une marge d’erreur de 4,25% sur les grandes langues européennes, mais qui peut monter jusqu’à 92% pour une langue « exotique » comme l’indonésien. Les analyses des tweets et des twittos ont permis de dégager des résultats importants. D’une part, elles montrent les fortes variations de leur nombre et de leur diversité linguistique à travers l’espace et le temps (p.ex. plus de comptes actifs en Suisse alémanique, mais plus de tweets en français dans l’ensemble ; plus de tweets pendant les périodes de vacances, mais baisse de la proportion des tweets et des twittos en langues nationales et en anglais). D’autre part la durée et l’étendue géographique de leur activité sont très variables (p.ex. 82% des comptes avec moins de 10 tweets, 68% actifs pendant un seul mois et 71% dans un seul canton). Des hypothèses ont été formulées et vérifiées pour expliquer ces résultats qui relèvent de la propension élevée des germanophones à twitter en anglais et de l’effet positif des loisirs sur l’envie et l’opportunité de twitter avec géolocalisation. Dans la dernière partie, l’étude propose des pistes afin d’établir des critères pour reconnaître un tweet suisse, en se basant sur les analyses menées préalablement ainsi que sur les expériences menées dans d’autres pays du monde. Le contexte international et suisse de l’archivage des tweets est abordé, sans prétention de vouloir proposer une méthode, au vu de la complexité des enjeux sociologiques, techniques et légaux

    La couverture de l’archivage du web suisse: comparaison des approches de la Bibliothèque nationale suisse et d’Internet Archive

    No full text
    Le web est devenu indispensable dans notre société actuelle centrée autour de l’information et de la communication. La valeur patrimoniale d’au moins une partie de ses contenus est indiscutable. Mais il s’agit de supports volatiles et techniquement difficiles à traiter, et les volumes sont énormes. Ce projet de recherche s’intéresse à la couverture de l’archivage du web suisse par deux acteurs, la Bibliothèque nationale suisse (BN) d’un côté et Internet Archive (IA) de l’autre. Du point de vue organisationnel, la différence majeure entre les deux institutions est que la BN a une approche sélective, tandis qu’IA moissonne tous les contenus rencontrés par ses crawlers, sans distinction qualitative. Le concept de “web suisse” englobe, pour nous, les sites correspondant à la définition des “Helvetica” utilisée par la BN. Nous avons formulé une demande auprès de l’institution (BN) et interrogé l’API disponible à cet effet (IA) pour obtenir les données brutes nécessaires à nos recherches, à savoir des fichiers CDX et XML avec les métadonnées sur les sites moissonnés. Nous les avons travaillées et analysées à l’aide du logiciel Dataiku, pour ne conserver que les données des premières captures des domaines de premier niveau. Ainsi, à fin 2019, sur un total de 2’259’952 sites avec le ccTLD .ch, IA en archive 1’298'225 (57.44 %) et la BN 7’513 (0.33 %). 7’418 sites sont archivés par les deux institutions. Si l’on regarde les collections de la BN tous TLD confondus, 8’132 sites sont archivés. Sur ces URL, 8’048 sites se trouvent également chez IA. Ces analyses quantitatives ont été complétées par une exploration qualitative des contenus archivés pour un échantillon de 23 sites. Nous avons vérifié leur présence dans les deux archives du web. Sur les 23 sites examinés, 10 sont archivés par la BN et 22 par IA. IA couvre le web suisse plus largement que la BN. Mais si un site a été sélectionné par la BN pour archivage, il sera alors archivé avec un niveau qualitatif très élevé. Nous pensons que les deux approches – sélectivo-qualitative et moissonnage massif mais moins profond – sont complémentaires et répondent aux objectifs fixés par chacune des institutions

    Assistants vocaux, enceintes connectées et recherche d’information

    No full text
    Le marché des enceintes connectées est grandissant et de nombreux services se développent autour de ces technologies. Ce travail étudie les assistants vocaux d’Amazon (Alexa), d’Apple (Siri) et de Google (Assistant Google) intégrés à des enceintes connectées, à savoir Amazon Echo, Apple HomePod et Google Home. Cette étude s’intéresse à deux sujets principaux : les modèles économiques appliqués à ces technologies et les capacités de recherche d’information des assistants vocaux. Il est à noter que ce travail touche un domaine des sciences de l’information relativement jeune et qu’il a une forte composante exploratoire. En effet, si des études ont été menées sur les assistants vocaux et les enceintes connectées, personne, à notre connaissance, ne s’est penché spécifiquement sur la question de la recherche d’information. A l’aide d’une revue de la littérature, nous avons pu relever différents modèles économiques qui seront probablement utilisés à l’avenir pour rentabiliser la commande vocale. Le premier modèle est celui de la publicité ciblée : les enceintes connectées sont utilisées pour récolter des données sur leurs utilisateurs et permettent ainsi au fabricant de connaître les habitudes de ses clients. Actuellement, la publicité n’est diffusée que très rarement via une enceinte connectée, mais cela pourrait donc changer. Le deuxième scénario qui se démarque est le modèle transactionnel, où les fabricants d’assistants vocaux (ici Amazon, Apple et Google) utilisent leur système sécurisé de paiement comme intermédiaire de toute transaction commandée par la voix, en prélevant une commission sur le montant de la vente. D’autres modèles se dessinent également autour de ce prélèvement d’une commission. Une partie importante de ce travail porte sur les tests que nous avons réalisés sur les capacités de recherche d’information des assistants vocaux. Nous avons mené quatre tests, visant à connaître les sources d’information utilisées par les assistants vocaux, s’il est possible d’avoir un impact dessus, si la localisation géographique joue un rôle dans leurs réponses et si celles-ci peuvent être influencées par une bulle de filtres. Il en ressort que les assistants vocaux ne citent pas nécessairement leurs sources ; les résultats sont très différents en fonction des enceintes testées (60% de sources citées pour Alexa, 62% pour l’Assistant Google et 24% pour Siri). Demander à un assistant vocal de recourir à la source d’information de notre choix pour sa réponse est difficile, voire impossible, mais il est cependant faisable de paramétrer l’utilisation de certaines sources par défaut chez Google et Amazon seulement. Nous avons relevé que la localisation géographique a un impact sur les réponses fournies par les assistants vocaux et il existe par ailleurs une différence intéressante entre les enceintes testées : deux d’entre elles prennent en compte l’adresse renseignée dans les paramètres comme localisation, tandis que la troisième considère sa localisation physique comme localisation géographique, peu importe l’adresse renseignée. Enfin, nous avons étudié la présence de bulles de filtres chez les assistants vocaux. Malheureusement, par manque de temps et de moyens, le test mis en place n’a pas donné les résultats escomptés. Nous ne pouvons donc pas nous prononcer sur la présence ou l’absence de bulles de filtres chez les assistants vocaux
    corecore