8 research outputs found

    CNN training with graph-based sample preselection: application to handwritten character recognition

    Full text link
    In this paper, we present a study on sample preselection in large training data set for CNN-based classification. To do so, we structure the input data set in a network representation, namely the Relative Neighbourhood Graph, and then extract some vectors of interest. The proposed preselection method is evaluated in the context of handwritten character recognition, by using two data sets, up to several hundred thousands of images. It is shown that the graph-based preselection can reduce the training data set without degrading the recognition accuracy of a non pretrained CNN shallow model.Comment: Paper of 10 pages. Minor spelling corrections brought regarding the v2. Accepted as an oral paper in the 13th IAPR Internationale Workshop on Document Analysis Systems (DAS 2018

    On the Ability of a CNN to Realize Image-to-Image Language Conversion

    Full text link
    The purpose of this paper is to reveal the ability that Convolutional Neural Networks (CNN) have on the novel task of image-to-image language conversion. We propose a new network to tackle this task by converting images of Korean Hangul characters directly into images of the phonetic Latin character equivalent. The conversion rules between Hangul and the phonetic symbols are not explicitly provided. The results of the proposed network show that it is possible to perform image-to-image language conversion. Moreover, it shows that it can grasp the structural features of Hangul even from limited learning data. In addition, it introduces a new network to use when the input and output have significantly different features.Comment: Published at ICDAR 201

    Projektiodatan laajennus ehdollisella generatiivisella kilpailevalla verkostolla rajoitetun keilan tietokonetomografiassa

    Get PDF
    Tiivistelmä. Tietokonetomografia (TT) on röntgensäteilyä hyödyntävä kuvantamismenetelmä, jonka avulla kuvannettavasta kohteesta kerätään säteilyn vaimenemista edustavaa projektiodataa, josta voidaan muodostaa rekonstruktioprosessissa leikekuvia. Leikekuvien avulla voidaan tarkastella kohteen kolmiulotteista rakennetta. Esimerkiksi sydämen TT:n leikekuvia voidaan hyödyntää sepelvaltimotaudin diagnostiikassa. Sydämen sisätomografia on tutkimuksen alla oleva säteilyannossäästön tuottava TT:n sovellus, jossa röntgensädekeila rajoitetaan koko torson sijaan kiinnostuksen kohteena olevalle sydämen alueelle. Sisätomografisen kuvantamisen haasteena on, että kun rajoitetulla keilalla kerätty projektiodata rekonstruoidaan leikekuvaksi käyttäen perinteistä suodatettua takaisinprojektiota (Filtered Back Projection, FBP), rekonstruoituun leikekuvaan aiheutuu kuvanlaatua heikentävää kirkasta sädekehämäistä artefaktaa. Tässä pro gradu -tutkielmassa ongelma ratkaistiin laajentamalla rajoitetun keilan projektiodata täyden keilan projektiodataksi ennen FBP-rekonstruktiota. Projektiodatan laajennus toteutettiin kouluttamalla syväoppiva konvolutionaalinen neuroverkko, joka oli ehdolliseen generatiiviseen kilpailevaan verkostoon (conditional Generative Adversarial Network, cGAN) perustuva Pix2Pix-malli. Referenssimenetelmänä käytettiin kokonaisvariaation minimointia eli TV-rekonstruktiota (Total Variation minimization, TV). Työssä käytettiin Oulun yliopistollisessa sairaalassa suoritetuista sydämen TT-tutkimuksista kerättyjä leikekuvia (Oulun yliopistollinen sairaala tutkimuslupanumero 104/2018). Datasettiin kuului 500 sydämen TT-tutkimusta, joissa kussakin tutkimuksessa oli keskimäärin 70 leikekuvaa, joista valittiin 400 leikekuvaa projektiodatan simulointiin. Täyden keilan ja rajoitetun keilan projektiodata simuloitiin leikekuvasta ASTRA-ohjelmiston avulla. Sydämen alueen kuvanlaatua arvioitiin laskemalla rekonstruoiduille leikekuville kuvanlaadun parametrit eli keskineliövirhe (Mean Squared Error, MSE: Pix2Pix: 0,03 ± 0,01 × 10^-5; TV: 0,07 ± 0,05 × 10^-5; artefaktan sisältävä FBP: 1,4 ± 0,6 × 10^-5), keskineliövirheen neliöjuuri (Root-Mean-Square Error, RMSE: Pix2Pix: 0,49 ± 0,09 × 10^-3; TV: 0,8 ± 0,3 × 10^-3; artefaktan sisältävä FBP: 3,7 ± 0,9 × 10^-3), signaali-kohinasuhteen huippu- tai maksimiarvo (Peak Signal-to-Noise Ratio, PSNR: Pix2Pix: 24,5 ± 1,5 dB; TV: 21,0 ± 3,0 dB; artefaktan sisältävä FBP: 7,0 ± 3,0 dB) ja rakenteellinen samankaltaisuusindeksi (Structured Similarity Index, SSIM: Pix2Pix: 0,99 ± 0,01; TV: 0,99 ± 0,01; artefaktan sisältävä FBP: 0,75 ± 0,10). Yhteenvetona voidaan todeta, että Pix2Pix-menetelmä tuotti paremman kuvanlaadun kuin TV-rekonstruktio, ja kehitetyn menetelmän avulla onnistuttiin poistamaan leikekuvan kuvanlaatua heikentävä artefakta. Samalla tultiin tuottaneeksi rajoitetun keilan ulkopuolista rakenneinformaatiota

    Prognose des GesamtĂĽberlebens bei Patienten mit malignem Melanom anhand Bildanalyse histologischer Schnitte durch kĂĽnstliche, vortrainierte, neuronale Netze

    Get PDF
    Das maligne Melanom zeichnet sich weiter als eine Erkrankung mit hohem Stellenwert im klinischen Alltag ab. Mit dem zunehmend relevanten Thema einer möglichst genauen Prognose der Erkrankung wurden in dieser Arbeit „convolutional neural network“-Modelle (CNN-Modelle) trainiert und bezüglich ihrer Prognose ausgewertet mit der Frage, welche Relevanz künstliche Intelligenz im Rahmen einer genauen Prognoseabgabe beim malignen Melanom einnehmen kann. 836 Melanomschnitte von Patienten mit dem Zeitpunkt der Erstdiagnose zwischen 2012 und 2015 wurden gesammelt und erstmalig digitalisiert. Über eine zufällige Verteilung wurden ca. 60% (502 Schnitte) für das Training der Modelle verwendet. Hierin wurden die zwei Klassen „alive“ und „dead“ innerhalb der „Google teachable machine“ trainiert. Bei der „Google teachable machine“ handelt es sich um ein allgemein zugängliches und benutzerfreundliches Tool, das es erlaubt, Modelle innerhalb von CNN-Plattformen zu erstellen. Die restlichen 40% (334 Schnitte) wurden durch die trainierten Modelle validiert. Die Prognoseaussage der CNN erfolgt anhand der Kategorien „dead“ und „alive“ und einer Prozentzahl, die aussagt, inwieweit der Schnitt aus „Sicht“ der CNN in die Kategorie hineinpasst. Die zwei trainierten Modelle unterschieden sich in Bezug auf die verwendeten digitalen Bilder. In einem ersten Modell wurde eine größere Aufnahme, die möglichst viel des feingeweblichen Schnittes beinhaltete, angefertigt. Das zweite Modell wurde nur mit und für die „areas of interest“ (AOI) trainiert, d.h. den krankheitsbestimmenden Arealen innerhalb der Schnitte Das AOI-Modell zeigte sich gegenüber dem Übersichtsbild-Modell deutlich überlegen. Innerhalb des Übersichtsbild-Modells konnten 84,13% richtig als „alive“ eingeordnet werden, jedoch lag die Trefferquote bei den „dead“ Schnitten lediglich bei 20,83%. Bei dem AOI-Modell wurden 70,36% richtig als „alive“, und 52,08% richtig als „dead“ eingeordnet. In einer ROC-Analyse zeigte sich einerseits das AOI-Modell als signifikanter gegenüber dem Übersichtsbild-Modell. Weiterhin eignete sich die prozentuale Einordnung der CNN gegenüber der kategorialen in „dead“ und „alive“ besser. In univariaten, logistischen Regressionsanalysen ließen sich die etablierten Prognosefaktoren Tumordicke nach Breslow verhältnisskaliert, die pT-Einteilung nach AJCC 2009, Ulzeration, histologischer Subtyp und Invasionslevel nach Clark, sowie die erstmals in dieser Arbeit erhobenen morphologischen Parameter Zellatypie, Mitosen, Wachstumsmuster und Pigmentierung als signifikante Einflussfaktoren auf die Prognose der CNN nachweisen. Mit dem weiteren Ziel, ein möglichst hochwertiges Prognosemodell zu erstellen, wurden innerhalb logistischer Regressionsanalysen diverse Modelle erstellt und in ROC-Analysen ausgewertet. Die etablierten Prognosefaktoren zeigten sich gegenüber den hier erhobenen morphologischen Faktoren als überlegen. Weiterhin ließen sich Modelle, die die CNN Prognose beinhalteten, durchgehend als besser nachweisen. Dies galt sowohl bei Modellen, die alle Faktoren beinhalteten, als auch bei Modellen, die nur die etablierten Faktoren beinhalteten. Das beste Modell dieses Projekts konnte mit der Einbeziehung der fünf genannten etablierten und der vier genannten morphologischen Faktoren, sowie die prozentuale und kategoriale Einteilung der CNN (AOI-Modell) erstellt werden. In einem anderen Schritt wurden ROC- und Überlebensanalysen der etablierten Prognosefaktoren durchgeführt. Hierin konnten die Erkenntnisse des aktuellen wissenschaftlichen Standes bestätigt werden. Die Tumordicke nach Breslow und die Ulzeration sind zentral in der Prognose des malignen Melanoms. Das Invasionslevel nach Clark und der histologische Subtyp sind zwar signifikant, in der prognostischen Aussagekraft den Faktoren Tumordicke und Ulzeration jedoch unterlegen. Aus den Ergebnissen lässt sich schließen, dass eine zunehmend relevante Rolle der KI im Rahmen der Prognoseabgabe des malignen Melanoms zu erwarten ist. Das zweite CNN-Modell (AOI-Modell) zeigte eine zufriedenstellende Übereinstimmung bei der Prognoseabgabe und eine hohe Signifikanz und hervorragende Ergebnisse in den nachfolgenden Analysen. Für die komplette Ersetzung der etablierten Prognosefaktoren und der diagnostischen Arbeit eines Dermatopathologen reichen die Ergebnisse noch nicht aus, aber es bleibt, die zukünftigen Entwicklungen abzuwarten
    corecore