9 research outputs found

    Revisiting the utility of identifying nuclear grooves as unique nuclear changes by an object detector model

    Get PDF
    Background Among other structures, nuclear grooves are vastly found in papillary thyroid carcinoma (PTC). Considering that the application of artificial intelligence in thyroid cytology has potential for diagnostic routine, our goal was to develop a new supervised convolutional neural network capable of identifying nuclear grooves in Diff-Quik stained whole-slide images (WSI) obtained from thyroid fineneedle aspiration. Methods We selected 22 Diff-Quik stained cytological slides with cytological diagnosis of PTC and concordant histological diagnosis. Each of the slides was scanned, forming a WSI. Images that contained the region of interest were obtained, followed by pre-formatting, annotation of the nuclear grooves and data augmentation techniques. The final dataset was divided into training and validation groups in a 7:3 ratio. Results This is the first artificial intelligence model based on object detection applied to nuclear structures in thyroid cytopathology. A total of 7,255 images were obtained from 22 WSI, totaling 7,242 annotated nuclear grooves. The best model was obtained after it was submitted 15 times with the train dataset (14th epoch), with 67% true positives, 49.8% for sensitivity and 43.1% for predictive positive value. Conclusions The model was able to develop a structure predictor rule, indicating that the application of an artificial intelligence model based on object detection in the identification of nuclear grooves is feasible. Associated with a reduction in interobserver variability and in time per slide, this demonstrates that nuclear evaluation constitutes one of the possibilities for refining the diagnosis through computational models

    Σχεδιασμός και υλοποίηση συστήματος αναγνώρισης προτύπων για ταξινομηση πρωτεομικών σημάτων φασματοσκοπίας μάζας (MS-SPECTRA) ασθενών με καρκίνο του προστάτη

    Get PDF
    Σκοπός της παρούσας διπλωματικής εργασίας ήταν να υλοποιηθεί ένα σύστημα αναγνώρισης προτύπων για το διαχωρισμό μεταξύ υγιών, καλοηθών και κακοηθών όγκων του προστάτη σε πρωτεωμικά δείγματα φασματοσκοπίας μάζας και ο εντοπισμός m/z διαστημάτων όπου πιθανόν να περιέχονται βιοδείκτες σχετιζόμενοι με τον καρκίνο του προστάτη. Για το σκοπό αυτό, χρησιμοποιήθηκαν δύο διαφορετικά σετ δεδομένων, ένα από το Εθνικό Καρκινικό Ινστιτούτο Αμερικής και ένα από το Ιατρικό κέντρο της Virginia, και τα οποία έχουν χρησιμοποιηθεί επανειλημμένα σε έρευνες σχετικά με τον καρκίνο του προστάτη. Λόγο της ιδιομορφίας των προς εξέταση φασμάτων, αρχικά απαιτήθηκε ένα στάδιο προ-επεξεργασίας τους (εξομάλυνση, εκτίμηση θορύβου, εύρεση και στοίχιση κορυφών) ώστε να καταστούν ικανά για περαιτέρω ανάλυση. Στο στάδιο αυτό πειραματιστήκαμε ενδελεχώς έτσι ώστε να καταλήξουμε στις βέλτιστες παραμέτρους για την προ-επεξεργασία των φασμάτων. Στην συνέχεια αναπτύχθηκαν πέντε διαφορετικοί ταξινομητές (MDC, KNN, Bayessian, PNN, SVM) καθώς και ένα σύστημα συνδυασμού αυτών έτσι ώστε να επιτευχθεί μέγιστη απόδοση. Για την εύρεση του βέλτιστου συνδυασμού χαρακτηριστικών υλοποιήθηκαν οι εξαντλητική αναζήτηση, η sequential forward selection (SFS), η sequential backward selection (SBS), η sequential forward floating selection (SFFS) καθώς και η sequential backward floating selection (SBFS). Μετά από συνεχή πειραματισμό με τις παραπάνω τεχνικές και τα μοντέλα μηχανικής μάθησης, πετύχαμε υπό περιπτώσεις ακρίβεια της τάξεως του 95-98% για το πρώτο σετ δεδομένων και της τάξεως του 92-93% για το δεύτερο σετ δεδομένων. Επιπλέον, βασιζόμενοι στα χαρακτηριστικά τα οποία οι ταξινομητές χρησιμοποίησαν κατά κόρον κατά την επίτευξη της βέλτιστης απόδοσής τους, καταλήξαμε σε 6 διαστήματα m/z ως πιθανά να περιέχουν βιοδείκτες που σχετίζονται με τον καρκίνο τους προστάτη. Μετά από συσχετισμό με προηγούμενες έρευνες, εντοπίστηκαν προτεινόμενοι από άλλες ερευνητικές ομάδες βιοδείκτες εντός των προτεινόμενων από εμάς διαστημάτων m/z, κάτι που ενισχύει την θέση μας ως προς την υποψηφιότητα αυτών των διαστημάτων.The aim of this thesis was to implement a pattern recognition system for the discrimination amongst healthy, benign and malignant prostate tumors from proteomic mass spectroscopy samples and to identify m/z intervals of potential biomarkers associated with prostate cancer. For this reason, we used two different data sets, one from the National Cancer Institute of America and one from the East Virginia Medical School, which have been repeatedly used in researches about prostate cancer. Due to the specificity of tested spectra, initially there was a demand of pre-processing (smoothing, noise assessment, finding and peak alignment) to make them suitable for further analysis. At this stage we experimented thoroughly so as to find the optimal parameters for pre-processing of spectra. We then developed five different classifiers (MDC, KNN, Bayessian, PNN, SVM) and a system combining these so as to achieve maximum performance. For finding the optimal combination of features we implemented exhaustive search, sequential forward selection (SFS), sequential backward selection (SBS), sequential forward floating selection (SFFS) and sequential backward floating selection (SBFS). After experimentation with these techniques and models of machine learning we achieved accuracy of 95-98% for the first set of data and of 92-93% for the second data set. Furthermore, based on the features the classifiers used when they achieved their optimal performance, we conclude at 6 different intervals of m/z as possible to contain biomarkers related to prostate cancer. After correlation with previous studies, biomarkers proposed by other research groups where found to be inside our proposed intervals of m/z, something that strengthens our position about the nomination of these intervals

    Σύστημα Υποστήριξης Διάγνωσης της Νόσου του Parkinson με Χρήση Φωνητικών Καταγραφών

    Get PDF
    Σκοπός της εργασίας είναι η ανάλυση δεδομένων προερχόμενα από ασθενείς με νόσο του Parkinson και υγιείς μάρτυρες με χρήση στατιστικών μεθόδων και μεθόδων αναγνώρισης προτύπων, ώστε να δημιουργηθεί ένα σύστημα υποστήριξης της διάγνωσης της συγκεκριμένης νόσου. Προς αυτή την κατεύθυνση θα χρησιμοποιηθούν δεδομένα, τα οποία έχουν συλλεχθεί από το Πανεπιστήμιο της Οξφόρδης σε συνεργασία με το Εθνικό Κέντρο για την φωνή και την ομιλία του Ντένβερ, Κολοράντο Η.Π.Α. Το σύνολο δεδομένων αποτελείται από 195 μετρήσεις με 23 χαρακτηριστικά η καθεμία, προερχόμενες από 31 περιστατικά, 23 ασθενείς με νόσο του Parkinson και 8 υγιείς μάρτυρες. Τα χαρακτηριστικά αυτά περιγράφουν ιδιότητες της φωνής που σχετίζονται με μεταβολές στην έντασή της, καθώς και στο φασματικό της περιεχόμενο. Αρχικά, θα γίνει στατιστική ανάλυση των δεδομένων για να βρεθεί ποια από όλα τα χαρακτηριστικά διαφέρουν στατιστικά σημαντικά ανάμεσα στις δύο ομάδες (υγιείς- πάσχοντες). Στη συνέχεια, για την δημιουργία του συστήματος υποστήριξης της διάγνωσης, θα γίνει επιλογή των χαρακτηριστικών στον ελάχιστο αριθμό αυτών που δίνουν την μέγιστη διάκριση των δύο κατηγοριών. Με αυτά τα χαρακτηριστικά θα γίνει εκπαίδευση του συστήματος με την χρήση διαφόρων ταξινομητών καθώς και συνδυασμούς τους. Στο τέλος με βάση τα υπάρχοντα δεδομένα θα γίνει αξιολόγηση του συστήματος, για την εξαγωγή της ακρίβειάς του και της ευαισθησίας του.The aim of this thesis is the analysis of data that are originated from patients with Parkinson’s disease and healthy martyrs, with use of statistical and pattern recognition methods, in order an integrated computer aided diagnosis (CAD) system to be fully developed for this particular disease. Towards this direction, a dataset will be used which is coming from the Oxford University in collaboration with the National Center for Speech and Voice, Colorado USA. The dataset is consisted of 195 measurements with 23 features each, which are coming from 31 cases, 23 with Parkinson’s disease and 8 healthy ones. These features describe speech properties that are linked to intensity variations as well as in spectra content. Initially, a statistical analysis will take place, in order to find which features are statistical different between two groups (healthy – diseased). After this, for the development of the CAD system, the minimum number of the features consists significant statistical differences will be selected. With the use of these features and combinations of them, the system will be trained. Lastly, these features will participate in system validation, for the extraction of its specificity and sensitivity

    The use of knowledge discovery databases in the identification of patients with colorectal cancer

    Get PDF
    Colorectal cancer is one of the most common forms of malignancy with 35,000 new patients diagnosed annually within the UK. Survival figures show that outcomes are less favourable within the UK when compared with the USA and Europe with 1 in 4 patients having incurable disease at presentation as of data from 2000.Epidemiologists have demonstrated that the incidence of colorectal cancer is highest on the industrialised western world with numerous contributory factors. These range from a genetic component to concurrent medical conditions and personal lifestyle. In addition, data also demonstrates that environmental changes play a significant role with immigrants rapidly reaching the incidence rates of the host country.Detection of colorectal cancer remains an important and evolving aspect of healthcare with the aim of improving outcomes by earlier diagnosis. This process was initially revolutionised within the UK in 2002 with the ACPGBI 2 week wait guidelines to facilitate referrals form primary care and has subsequently seen other schemes such as bowel cancer screening introduced to augment earlier detection rates. Whereas the national screening programme is dependent on FOBT the standard referral practice is dependent upon a number of trigger symptoms that qualify for an urgent referral to a specialist for further investigations. This process only identifies 25-30% of those with colorectal cancer and remains a labour intensive process with only 10% of those seen in the 2 week wait clinics having colorectal cancer.This thesis hypothesises whether using a patient symptom questionnaire in conjunction with knowledge discovery techniques such as data mining and artificial neural networks could identify patients at risk of colorectal cancer and therefore warrant urgent further assessment. Artificial neural networks and data mining methods are used widely in industry to detect consumer patterns by an inbuilt ability to learn from previous examples within a dataset and model often complex, non-linear patterns. Within medicine these methods have been utilised in a host of diagnostic techniques from myocardial infarcts to its use in the Papnet cervical smear programme for cervical cancer detection.A linkert based questionnaire of those attending the 2 week wait fast track colorectal clinic was used to produce a ‘symptoms’ database. This was then correlated with individual patient diagnoses upon completion of their clinical assessment. A total of 777 patients were included in the study and their diagnosis categorised into a dichotomous variable to create a selection of datasets for analysis. These data sets were then taken by the author and used to create a total of four primary databases based on all questions, 2 week wait trigger symptoms, Best knowledge questions and symptoms identified in Univariate analysis as significant. Each of these databases were entered into an artificial neural network programme, altering the number of hidden units and layers to obtain a selection of outcome models that could be further tested based on a selection of set dichotomous outcomes. Outcome models were compared for sensitivity, specificity and risk. Further experiments were carried out with data mining techniques and the WEKA package to identify the most accurate model. Both would then be compared with the accuracy of a colorectal specialist and GP.Analysis of the data identified that 24% of those referred on the 2 week wait referral pathway failed to meet referral criteria as set out by the ACPGBI. The incidence of those with colorectal cancer was 9.5% (74) which is in keeping with other studies and the main symptoms were rectal bleeding, change in bowel habit and abdominal pain. The optimal knowledge discovery database model was a back propagation ANN using all variables for outcomes cancer/not cancer with sensitivity of 0.9, specificity of 0.97 and LR 35.8. Artificial neural networks remained the more accurate modelling method for all the dichotomous outcomes.The comparison of GP’s and colorectal specialists at predicting outcome demonstrated that the colorectal specialists were the more accurate predictors of cancer/not cancer with sensitivity 0.27 and specificity 0.97, (95% CI 0.6-0.97, PPV 0.75, NPV 0.83) and LR 10.6. When compared to the KDD models for predicting the same outcome, once again the ANN models were more accurate with the optimal model having sensitivity 0.63, specificity 0.98 (95% CI 0.58-1, PPV 0.71, NPV 0.96) and LR 28.7.The results demonstrate that diagnosis colorectal cancer remains a challenging process, both for clinicians and also for computation models. KDD models have been shown to be consistently more accurate in the prediction of those with colorectal cancer than clinicians alone when used solely in conjunction with a questionnaire. It would be ill conceived to suggest that KDD models could be used as a replacement to clinician- patient interaction but they may aid in the acceleration of some patients for further investigations or ‘straight to test’ if used on those referred as routine patients

    Σύστημα αυτόματης διάγνωσης ιστοπαθολογικών εικόνων μικροσκοπίας.

    Get PDF
    Αντικείμενο της παρούσας διπλωματικής είναι η μελέτη και ανάπτυξη ενός συστήματος λήψης, επεξεργασίας και ανάλυσης ιστοπαθολογικών εικόνων μικροσκοπίας για την υποστήριξη της διάγνωσης του ενδομητριακού καρκίνου. Στην υπάρχουσα βιβλιογραφία του ενδομητριακό καρκίνο, δεν υπάρχει άλλη μελέτη που να αφορά την ποσοτική ανάλυση ιστοπαθολογικών εικόνων ενδομητριακών κυττάρων. Παρόμοιες εργασίες, αφορούσαν ολοκληρωμένα συστήματα ταξινόμησης ιστοπαθολογικών εικόνων άλλου είδους καρκίνου. Η δομή της υλοποίησης χωρίζεται σε πέντε βασικές διαδικασίες. Η πρώτη διαδικασία αφορά την ψηφιοποίηση των διαθέσιμων βιοψιών του ενδομητριακού καρκίνου. Οι βιοψίες επεξεργάστηκαν από την ιστοπαθολόγο με τη χρώση Αιματοξυλίνης-Ιωσίνης για τη εκτίμηση του βαθμού διαφοροποίησης του όγκου και ανοσοϊστοχημικά για την έκφραση του ογκογονιδίου cerb-B. Έχουμε ψηφιοποιήσει 17 βιοψίες/περιστατικά, μέσα από τις οποίες έγινε λήψη σε 117 ψηφιακές ιστοπαθολογικές εικόνες μικροσκοπίας. Η λήψη των ιστοπαθολογικών εικόνων έγινε με την χρήση οπτικού μικροσκοπίου και ενσωματωμένης κάμερας. δεύτερη διαδικασία αφορά την επεξεργασία των ιστοπαθολογικών εικόνων μικροσκοπίας, όπου με τεχνικές τμηματοποίησης απομονώνεται η περιοχή ενδιαφέροντος, οι κυτταρικοί πυρήνες, οι οποίοι φέρουν καφέ χρώμα. Με συνδυασμό τεχνικών, το σύστημα είναι ικανό να προβλέψει και να διαχωρίσει περιοχές ενδιαφέροντος που κρύβουν δύο οι περισσοτέρους προσκολλημένους κυτταρικούς πυρήνες. Η τρίτη διαδικασία περιλαμβάνει την εξαγωγή των χαρακτηριστικών από την περιοχή ενδιαφέροντος της ιστοπαθολογικής εικόνας. Εξάγουμε 24 χαρακτηριστικά, εκ τον οποίων τα 18 είναι χαρακτηριστικά υφής και τα υπόλοιπα 6 μορφολογικά χαρακτηριστικά. Για την εξαγωγή των χαρακτηριστικών υπολογίστηκαν μήτρες όπως, «co-occurance matrix» και «gray level run length matrix». Η τέταρτη διαδικασία αφορά την υλοποίηση του συστήματος αναγνώρισης προτύπων. Για την επιλογή χαρακτηριστικών χρησιμοποιήθηκαν τεχνικές όπως η εξαντλητική αναζήτηση βέλτιστων χαρακτηριστικών «exhaustive search» και τεχνικές μη βέλτιστης επιλογής χαρακτηριστικών με στατιστικούς ελέγχους. Για την ταξινόμηση των προτύπων, μελετήθηκαν αλγόριθμοι ταξινόμησης που ήταν ικανοί να διαχωρίσουν άγνωστα πρότυπα μεταξύ τριών διαθέσιμων κλάσεων ( επιπ έδων «grades Ι, ΙΙ, ή ΙΙΙ» ενδομητριακού καρκίνου) όπως ο «Minimum Distance Classifier (MDC)», ο «k-Nearest Neighbours (K-NN)», ο «Least Squares Minimum Distance Classifier (LSMDC)», ο «Linear Bayes Classifier (LBC)» και τα «Probabilistic Neural Network (PNN)». Εκτός από την επιλογή του καλύτερου ταξινομητή, προτάθηκαν τρόποι υλοποίησης με συνδυασμό ταξινομητών «ensemble classifier» κάνοντας χρήση συνδυαστικών τεχνικών και κανόνων απόφασης «majority rules». Η τελευταία διαδικασία αφορά την αξιολόγηση των τεχνικών και αλγορίθμων που προτάθηκαν. Συγκρίνοντας τα αποτελέσματα, επιλέγεται η καλύτερη τεχνική με την οποία προτείνεται η υλοποίηση του συστήματος Για τον εγγύτερο υπολογισμό των παραμέτρων εκτίμησης χρησιμοποιήθηκαν μέθοδοι επαναληπτικής δειγματοληψίας, όπως τις τεχνικές «leave one out» και «external cross validation».Η ανάπτυξη του συστήματος λήψης, επεξεργασίας και ανάλυσης ιστοπαθολογικών εικόνων μικροσκοπίας που περιγράφουμε είναι εφικτή, με πολύ ενθαρρυντικά αποτελέσματα. Με βάση τα αποτελέσματα καλύτερος αλγόριθμος είναι τα πιθανοτικά νευρωνικά δίκτυα. Στην επιλογή βέλτιστου συνδυασμού χαρακτηριστικών με εξαντλητική αναζήτηση, κάνοντας χρήση της μεθόδου «leave one out», επιτεύχθηκε το ποσοστό 96% ορθής ταξινόμησης. Αντίστοιχα είχαμε 94% ορθής ταξινόμησης, στις μη βέλτιστες μεθόδους επιλογής καλύτερου συνδυασμού χαρακτηριστικών. Τέλος στην τελική αξιολόγηση του ταξινομητή επιτεύχθηκε το ποσοστό 82.5% 6.2 ορθής ταξινόμησης άγνωστων προτύπων, με την επαναδειγματοληπτική μέθοδο «external cross validation», επιλέγοντας χαρακτηριστικά με την μη βέλτιστη τεχνική «sequentialfs».The objective of the foreclosed thesis is the study and development of a system which receives, processes and analyses histopathological microscopical images, to assist/support the diagnosis of endometrial cancer. From the current available sources, no other study was found with regard to the quantitative analysis of histopathological images related to endometrial cancer. Similar studies regarding complete systems of histopathological image classification of another type of cancer. The structure of implementation is divided into five basic procedures. The first one concerns the digitation of available biopsies of endometrial cancer. The biopsies were processed by histopathologist staining Hematoxylin-Iosinis to assess the degree of tumor and immunohistochemically for the expression of the oncogene cerb-B. We have digitized 17 biopsy / incidents involving different patients, from which 117 digital histopathologic microscopical images were taken. The histopathological image sample was taken using an optical microscope and an integrated camera. The second procedure concerns the processing of histopathological microscopical images by segmenting the region of interest (ROI). The ROI is defined as the expressed nuclei that where colored brown. With a combination of techniques, the system is able to predict and distinguish ROIs that conceal two or more adherent nuclei. The third procedure involves the feature extraction stage. We extract 24 features, of which 18 are textural features and the other 6 are morphological features. Textural features were calculated based on the gray level co-occurrence matrix and the gray level run length matrix. The fourth procedure concerns the implementation of the pattern recognition system. For the features selection stage, the Kruskal-Wallis statistical test and a linear regression method were employed as non optimal techniques. The exhaustive search method was also utilized as the optimum feature selection technique. For the classification stage, a variety of classifiers were tested such as the Minimum Distance (MDC), the k-Nearest Neighbour (K-NN), the Least Squares Minimum Distance (LSMDC), the 'Linear Bayes (LBC) and the Probabilistic Neural Network (PNN). The classification task was to characterize an image into three grades of endometrial cancer (grade I, II, or III). Αpart from the classical implementation of the pattern recognition system of choosing the best classifier, methods of implementation combining classifiers ‘ensemble classification schemes’ were proposed, using combinatorial techniques and decision rules ‘majority rules’. The last procedure concerns the evaluation of the techniques and algorithms which have been proposed. Comparing the results, the best technique which the system implementation proposes, is selected. For the best estimation of the calculating parameters, methods of iterative sampling techniques were used, such as ‘leave one out’ and ‘external cross validation’. Best classification algorithm was found the PNN that gave 94% of correct classification when non optimal feature selection method were employed. The PNN scored around 96% overall accuracy employing the ‘exhaustive search‘ and the ‘leave one out’ methods. The proposed image analysis system proved capable of classifying a ‘new’ image with an average accuracy of 82% employing the ‘external cross validation’ method. Results are promising for the development of such system, with some modest modifications suitable for a clinical environment

    Development of deep learning methods for head and neck cancer detection in hyperspectral imaging and digital pathology for surgical guidance

    Get PDF
    Surgeons performing routine cancer resections utilize palpation and visual inspection, along with time-consuming microscopic tissue analysis, to ensure removal of cancer. Despite this, inadequate surgical cancer margins are reported for up to 10-20% of head and neck squamous cell carcinoma (SCC) operations. There exists a need for surgical guidance with optical imaging to ensure complete cancer resection in the operating room. The objective of this dissertation is to evaluate hyperspectral imaging (HSI) as a non-contact, label-free optical imaging modality to provide intraoperative diagnostic information. For comparison of different optical methods, autofluorescence, RGB composite images synthesized from HSI, and two fluorescent dyes are also acquired and investigated for head and neck cancer detection. A novel and comprehensive dataset was obtained of 585 excised tissue specimens from 204 patients undergoing routine head and neck cancer surgeries. The first aim was to use SCC tissue specimens to determine the potential of HSI for surgical guidance in the challenging task of head and neck SCC detection. It is hypothesized that HSI could reduce time and provide quantitative cancer predictions. State-of-the-art deep learning algorithms were developed for SCC detection in 102 patients and compared to other optical methods. HSI detected SCC with a median AUC score of 85%, and several anatomical locations demonstrated good SCC detection, such as the larynx, oropharynx, hypopharynx, and nasal cavity. To understand the ability of HSI for SCC detection, the most important spectral features were calculated and correlated with known cancer physiology signals, notably oxygenated and deoxygenated hemoglobin. The second aim was to evaluate HSI for tumor detection in thyroid and salivary glands, and RGB images were synthesized using the spectral response curves of the human eye for comparison. Using deep learning, HSI detected thyroid tumors with 86% average AUC score, which outperformed fluorescent dyes and autofluorescence, but HSI-synthesized RGB imagery performed with 90% AUC score. The last aim was to develop deep learning algorithms for head and neck cancer detection in hundreds of digitized histology slides. Slides containing SCC or thyroid carcinoma can be distinguished from normal slides with 94% and 99% AUC scores, respectively, and SCC and thyroid carcinoma can be localized within whole-slide images with 92% and 95% AUC scores, respectively. In conclusion, the outcomes of this thesis work demonstrate that HSI and deep learning methods could aid surgeons and pathologists in detecting head and neck cancers.Ph.D
    corecore