Search CORE

3 research outputs found

Large scale deduplication based on fingerprints

Author: Bouetou Thomas Bouetou
Nguena Ibrahim Moukouop
Nlend Jean Aymar Biyiha
Publication venue
Publication date: 13/01/2021
Field of study

In fingerprint-based systems, the size of databases increases considerably with population growth. In developing countries, because of the difficulty in using a central system when enlisting voters, it often happens that several regional voter databases are created and then merged to form a central database. A process is used to remove duplicates and ensure uniqueness by voter. Until now, companies specializing in biometrics use several costly computing servers with algorithms to perform large-scale deduplication based on fingerprints. These algorithms take a considerable time because of their complexity in O (n2), where n is the size of the database. This article presents an algorithm that can perform this operation in O (2n), with just a computer. It is based on the development of an index obtained using a 5 * 5 matrix performed on each fingerprint. This index makes it possible to build clusters of O (1) in size in order to compare fingerprints. This approach has been evaluated using close to 11 4000 fingerprints, and the results obtained show that this approach allows a penetration rate of less than 1%, an almost O (1) identification, and an O (n) deduplication. A base of 10 000 000 fingerprints can be deduplicated with a just computer in less than two hours, contrary to several days and servers for the usual tools. Keywords: fingerprint, cluster, index, deduplication.Comment: 18 pages, 12 figure

arXiv.org e-Print Archive

Les PME et le traitement de l'information à l'ère des données massives

Author: Fejjar Nada
Publication venue
Publication date: 01/01/2021
Field of study

Etude préliminaire en vue de la numérisation de la documentation scientifique de l’EPFL

Author: Uske Thierry
Publication venue
Publication date: 29/09/2011
Field of study

Cette étude préliminaire de numérisation vise à étudier si et comment il est possible de mettre en valeur les fonds et, indirectement, faire évoluer la gestion documentaire de plusieurs laboratoires scientifiques n’ayant pas migré totalement leurs collections à la bibliothèque de l’EPFL. Mon travail consiste, dans un premier temps, à prendre contact avec un échantillon représentatif de laboratoires afin de réaliser un état des lieux de leur documentation et de la gestion de celle-ci. Après analyse, des critères de choix et de priorisation dans le traitement des documents sont définis de concert avec les scientifiques et les bibliothécaires dans le cadre d’un projet de numérisation éventuel. Cette étape m’a permis également de prendre connaissance des besoins et attentes des scientifiques dans le domaine de la recherche documentaire. Ensuite, mon étude s’intéresse au processus de numérisation dans sa globalité avant de se recentrer sur chaque entité étudiée. Quels documents méritent d’être scannés ? Qu’en est-il des droits d’auteur ? Peut-on lancer le projet en interne ou est-il préférable de s’orienter vers un prestataire externe ? Quels sont les coûts d’un tel projet ? L’outil Infoscience, l’archive institutionnelle de l’EPFL, est-il adapté au signalement et à la diffusion des documents numérisés ? Ces questions sont abordées au fil de mon étude tout en y apportant des éclaircissements et des éléments de réponse. Une analyse critique de la situation est également menée en comparant les pratiques de l’EPFL avec d’autres institutions universitaires. Ce rapport établit un constat actuel de la numérisation et aboutit à des recommandations et des axes d’amélioration dans le but de créer un guide de bonnes pratiques utile à la bibliothèque de l’EPFL et à d’autres laboratoires concernés par cette problématique