177 research outputs found

    Maîtrise de la qualité des transcriptions numériques dans les projets de numérisation de masse

    Get PDF
    This work focuses on the assessment of characters recognition results produced automatically by optical character recognition software (OCR on mass digitization projects. The goal is to design a global control system robust enough to deal with BnF documents collection. This collection includes old documents which are difficult to be treated by OCR. We designed a word detection system to detect missed words defects in OCR results, and a words recognition rate estimator to assess the quality of word recognition results performed by OCR.We create two kinds of descriptors to characterize OCR outputs. Image descriptors to characterize page segmentation results and cross alignment descriptors to characterize the quality of word recognition results. Furthermore, we adapt our learning process to make an adaptive decision or prediction systems. We evaluated our control systems on real images selected randomly from BnF collection. The mmissed word detection system detects 84.15% of words omitted by the OCR with a precision of 94.73%. The experiments performed also showed that 80% of the documents of word recognition rate less than 98% are detected with an accuracy of 92%. It can also automatically detect 45% of the material having a recognition rate less than 70% with greater than 92% accuracy.Ce travail s’intéresse au contrôle des résultats de transcriptions numériques produites automatiquement par des logiciels de reconnaissance optique de caractères (OCR), lors de la réalisation de projets de numérisation de masse de documents. Le but de nos travaux est de concevoir un système de contrôle des résultats d’OCR suffisamment robuste pour être performant sur l’ensemble des documents numérisés à la BnF. Cettecollection est composée de documents anciens dont les particularités les rendent difficiles à traiter par les OCR, même les plus performants. Nous avons conçu un système de détection des mots omis dans les transcriptions, ainsi qu’une méthode d’estimation des taux dereconnaissance des caractères. Le contexte applicatif exclu de recourir à une vérité terrain pour évaluer les performances. Nous essayons donc de les prédire. Pour cela nous proposons différents descripteurs qui permettent de caractériser les résultats des transcriptions. Cette caractérisation intervient à deux niveaux. Elle permet d’une part de caractériser la segmentation des documents à l’aide de descripteurs de textures, et d’autres part de caractériser les textes produits en ayant recours à un second OCR qui joue le rôle d’une référence relative. Dans les deux cas, les descripteurs choisis permettent de s’adapter aux propriétés des corpus à contrôler. L’adaptation est également assurée par une étape d’apprentissage des étages de décision ou de prédiction qui interviennent dans le système. Nous avons évalué nos systèmes de contrôle sur des bases d’images réelles sélectionnées dans les collections documentaires de la BnF. Le système détecte 84, 15% des mots omis par l’OCR avec une précision de 94, 73%. Les expérimentations réalisées ont également permis de montrer que 80% des documents présentant un taux de reconnaissance mots inférieur à 98% sont détectés avec une précision de 92%. On peut également détecter automatiquement 45% des documents présentant un taux de reconnaissance inférieur à 70% avec une précision supérieure à 92%

    Conception et mise en oeuvre d'une architecture logicielle pour l'amélioration des performances d'un simulateur GNSS et l'intégration de modèles multitrajets

    Get PDF
    Le positionnement par satellite connaît l'une des périodes les plus importantes depuis son avènement à la fin du 20'^"^^ siècle. En effet, outre le système GPS, de nouvelles constellations sont en train de voir le jour, tel que Galileo le système de positionnement européen, ou encore le chinois Beidou (Système de navigation chinois), et le projet russe GLONASS. Tous ces systèmes regroupés sous le nom de GNSS (Global Navigation Satellite System) permettront de développer des applications de plus en plus précises et fiables. Ceci ne peut se concrétiser sans l'intégration des différents signaux GNSS. Outre le défi de développer des récepteurs et de les intégrer dans différents autres appareils sans fil, comme les téléphones par exemple, il faut souligner l'importance de développer des simulateurs capables aussi de générer les signaux satellites permettant d'effectuer les tests de fiabilité, de précision et de robustesse nécessaires au niveau des récepteurs. Ce mémoire présente donc la mise en oeuvre d'une nouvelle architecture logicielle pour le simulateur GNSS, qui permet de produire en temps réel des scénarios de tests pour des récepteurs hybrides GPS/Galileo. Le simulateur se compose de trois parties : le logiciel, la partie de traitement en temps réel des signaux numériques et la partie analogique. Notre intérêt dans ce mémoire va donc se porter sur la partie logicielle du simulateur. En effet, nous avons travaillé d'abord sur la validafion des signaux générés, pour ensuite obtenir des positions correctes au niveau du récepteur de test. Ensuite, nous avons réussi à mettre en place une nouvelle architecture logicielle qui remédie aux nombreuses limitations de la première version. Cette première qui a été développée par une ancienne équipe du LACIME présentait en effet des limitations logicielles qui ne permettaient pas une évolution qualitative du simulateur. Les avantages d'une telle manoeuvre consistent essentiellement au développement d'une architecture logicielle de haute qualité, très fiexible au niveau de la conception, réutilisable, facile à tester et concurrentiel au niveau des coûts. L'accomplissement du travail au niveau du logiciel nous permet donc d'aborder un autre objectif du projet qui consiste à étudier et modéliser l'effet des multi-trajets dans les signaux satellites. Cette modélisation a été effectuée et testée en mettant en place des scénarios, et en vérifier les effets au niveau des récepteurs de test utilisés

    Prediction of Selection Decision of Document Using Bibliographic Data at the National Library of France (BnF)

    Get PDF
    p. 135-140International audienceThe selection process of the documents is a very important step in mass digitization projects. This is especially true at the BnF, where the digitization should include or not OCRization depending on the OCR results expected. Consequently, the selection task is very complex and time consuming due to the number of documents to be processed and the diversity of the selection criteria to consider. Trying to improve and simplify this task by automation, we studied the relationship between bibliographic data and the selection decisions of documents. We used two statistical analysis : a factor analysis of correspondence and a multiple correspondence analysis. Our analysis has shown that, for example, the documents in format "4 or GR FOL" and edited "between 1961 and 1990" in Morocco are more likely to be "Selected". However, the documents in format "16 or 8" and edited "between 1871 and 1800 in English or Spanish have a greater chance to be "Not Selected"

    Contribution à l'analyse de la stabilité statique de la tension

    Get PDF
    Introduction à la stabilité de la tension -- Étude des méthodes et de la littérature -- Modélisation et surveillance de la stabilité de la tension à l'aide d'un système expert -- Émulation de l'évaluation et du réglage en temps réel de la stabilité de la tension -- Estimation de la limite de transit de puissance

    Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition

    Full text link
    Crafting an effective Automatic Speech Recognition (ASR) solution for dialects demands innovative approaches that not only address the data scarcity issue but also navigate the intricacies of linguistic diversity. In this paper, we address the aforementioned ASR challenge, focusing on the Tunisian dialect. First, textual and audio data is collected and in some cases annotated. Second, we explore self-supervision, semi-supervision and few-shot code-switching approaches to push the state-of-the-art on different Tunisian test sets; covering different acoustic, linguistic and prosodic conditions. Finally, and given the absence of conventional spelling, we produce a human evaluation of our transcripts to avoid the noise coming from spelling inadequacies in our testing references. Our models, allowing to transcribe audio samples in a linguistic mix involving Tunisian Arabic, English and French, and all the data used during training and testing are released for public use and further improvements.Comment: 6 pages, submitted to ICASSP 202

    Giant gastric lipoma mimicking well-differentiated liposarcoma

    Get PDF
    Authors report the case of a 51-year-old man, presenting with epigastralgia of recent onset. Physical exam was unremarkable. Endoscopy revealed a large, ulcerated, submucosal, antral tumor. CT scan reveals an antral mass with fat attenuation. The patient underwent a total gastrectomy. Macroscopic examination identified in the antral wall a 9-cm, well-circumscribed, nodular lesion, with a yellow, greasy cut surface. On histological examination, the tumor was composed of a mature adipocytes proliferation, showing significant variation in cell size, associated to some lipoblasts. Nuclei were sometimes large, slightly irregular, but without hyperchromasia nor mitosis. Diagnosis of a well-differentiated liposarcoma was suspected and molecular cytogenetic analyses showed no MDM2 nor CDK4 gene amplification on fluorescent in situ hybridization. The diagnosis of lipoma was made. Twelve months following surgery, the patient is doing well.Pan African Medical Journal 2012; 13:1

    A genetic algorithm for shortest path with real constraints in computer networks

    Get PDF
    The shortest path problem has many different versions. In this manuscript, we proposed a muti-constrained optimization method to find the shortest path in a computer network. In general, a genetic algorithm is one of the common heuristic algorithms. In this paper, we employed the genetic algorithm to find the solution of the shortest path multi-constrained problem. The proposed algorithm finds the best route for network packets with minimum total cost, delay, and hop count constrained with limited bandwidth. The new algorithm was implemented on four different capacity networks with random network parameters, the results showed that the shortest path under constraints can be found in a reasonable time. The experimental results showed that the algorithm always found the shortest path with minimal constraints

    Management of hemorrhage secondary to a pseudoaneurysm of the gastroduodenal artery

    Get PDF
    We report a case of a 31-year-old male patient with chronic pancreatitis and hematemesis secondary to gastroduodenal artery pseudoaneurysm. No evidence-based guidelines exist regarding the optimal treatement modality of this affection. The authors, in reference to a case emphasize the value of the celiac arteriography to diagnostic confirmation and transcatheter embolisation
    • …
    corecore