14 research outputs found

    Breast cancer data analysis for survivability studies and prediction

    Full text link
    © 2017 Elsevier B.V. Background Breast cancer is the most common cancer affecting females worldwide. Breast cancer survivability prediction is challenging and a complex research task. Existing approaches engage statistical methods or supervised machine learning to assess/predict the survival prospects of patients. Objective The main objectives of this paper is to develop a robust data analytical model which can assist in (i) a better understanding of breast cancer survivability in presence of missing data, (ii) providing better insights into factors associated with patient survivability, and (iii) establishing cohorts of patients that share similar properties. Methods Unsupervised data mining methods viz. the self-organising map (SOM) and density-based spatial clustering of applications with noise (DBSCAN) is used to create patient cohort clusters. These clusters, with associated patterns, were used to train multilayer perceptron (MLP) model for improved patient survivability analysis. A large dataset available from SEER program is used in this study to identify patterns associated with the survivability of breast cancer patients. Information gain was computed for the purpose of variable selection. All of these methods are data-driven and require little (if any) input from users or experts. Results SOM consolidated patients into cohorts of patients with similar properties. From this, DBSCAN identified and extracted nine cohorts (clusters). It is found that patients in each of the nine clusters have different survivability time. The separation of patients into clusters improved the overall survival prediction accuracy based on MLP and revealed intricate conditions that affect the accuracy of a prediction. Conclusions A new, entirely data driven approach based on unsupervised learning methods improves understanding and helps identify patterns associated with the survivability of patient. The results of the analysis can be used to segment the historical patient data into clusters or subsets, which share common variable values and survivability. The survivability prediction accuracy of a MLP is improved by using identified patient cohorts as opposed to using raw historical data. Analysis of variable values in each cohort provide better insights into survivability of a particular subgroup of breast cancer patients

    The 2C-series - a new class of designer drugs

    Get PDF
    Studies are presented on the metabolism and toxicological detection of the most important compounds of the so-called 2C-series. The isoenzymes involved (MAO, CYP) in the major metabolic step are presented.Studien werden präsentiert zum Metabolismus und toxikologischen Nachweisverfahren der wichtigsten Vertreter der sogenannten 2C-Reihe. Des Weiteren werden die am Hauptmetabolismusschritt beteiligten Isoenzyme vorgestellt (CYP, MAO)

    Ranked centroid projection: A data visualization approach based on self-organizing maps

    Get PDF
    The Self-Organizing Map (SOM) is an unsupervised neural network model that provides topology-preserving mapping from high-dimensional input spaces onto a commonly two-dimensional output space. In this study, the clustering and visualization capabilities of the SOM, especially in the analysis of textual data, i.e. document collections, are reviewed and further developed. A novel clustering and visualization approach based on the SOM is proposed for the task of text data mining. The proposed approach first transforms the document space into a multi-dimensional vector space by means of document encoding. Then a growing hierarchical SOM (GHSOM) is trained and used as a baseline framework, which automatically produces maps with various levels of details. Following the training of the GHSOM, a novel projection method, namely the Ranked Centroid Projection (RCP), is applied to project the input vectors onto a hierarchy of two-dimensional output maps. The projection of the input vectors is treated as a vector interpolation into a two-dimensional regular map grid. A ranking scheme is introduced to select the nearest R units around the input vector in the original data space, the positions of which will be taken into account in computing the projection coordinates.The proposed approach can be used both as a data analysis tool and as a direct interface to the data. Its applicability has been demonstrated in this study using an illustrative data set and two real-world document clustering tasks, i.e. the SOM paper collection and the Anthrax paper collection. Based on the proposed approach, a software toolbox is designed for analyzing and visualizing document collections, which provides a user-friendly interface and several exploration and analysis functions.The presented SOM-based approach incorporates several unique features, such as the adaptive structure, the hierarchical training, the automatic parameter adjustment and the incremental clustering. Its advantages include the ability to convey a large amount of information in a limited space with comparatively low computation load, the potential to reveal conceptual relationships among documents, and the facilitation of perceptual inferences on both inter-cluster and within-cluster relationships

    Modelação e previsão da performance e das propriedades do papel

    Get PDF
    A performance do papel na impressão é reflexo das suas características ópticas, estruturais, mecânicas e físico-químicas. O estabelecimento de modelos quantitativos rigorosos que relacionem as propriedades específicas de cada tipo de papel com a sua imprimibilidade e que permitam efectuar previsões sobre o posterior comportamento/performance do papel reveste-se de uma enorme relevância. Estes modelos possibilitam que o fabricante e o impressor/consumidor possam fazer uma avaliação quantitativa, mais rápida e menos onerosa sobre os diferentes tipos de papel disponíveis no mercado. No presente trabalho foram analisados 286 papéis e cartolinas diferentes, de 12 fabricantes e 25 propriedades estruturais, ópticas, mecânicas e físico-químicas. Foi elaborada uma base de dados com 286 entradas a partir de dados recolhidos na literatura, de fichas técnicas e de informação de fabricantes. Numa segunda fase, a matriz de dados foi estendida com a determinação experimental em 19 papéis de uma propriedade físico-química, o pH da massa, usando para o efeito uma técnica potenciométrica e, em 15 papéis, de uma propriedade óptica, a opacidade, utilizando a densitometria de cor. A base de dados foi completada com o cálculo de uma propriedade estrutural de matriz, a densidade aparente, em 177 papéis. Foram analisadas e comparadas as capacidades de previsão e de interpretação de modelos construídos com base em duas metodologias distintas: Regressões Lineares Multiparamétricas (RLM) e Redes Neuronais Artificiais não Supervisionadas (Self- Organizing Maps - SOM). Concluiu-se que ambas se mostraram eficazes e que se complementam. As RLM superaram as SOM no desenvolvimento de modelos cujas propriedades envolvidas apresentavam comportamentos lineares, uma vez que permitem estabelecer equações matemáticas simples, de fácil aplicação e com níveis de previsão bastante elevados; por seu turno, as SOM têm a capacidade de classificar, conseguem extrair padrões e modelar comportamentos aparentemente estocásticos. Os modelos quantitativos foram estabelecidos com base em critérios estatísticos e procedimentos de validação muito exigentes

    Das Konnektom des Thalamus der Laborratte

    Get PDF
    Dissertation über das Konnektom des Thalamus der Laborratte mit Hilfe des Programms NeuroVIISAS. Herausgearbeitet wurden die ipsi- und kontralateralen Verbindungsmuster des Gehirns der Laborratte anhand von Verbindungsdaten aus 433 Primärpublikationen

    Mathematische Verfahren zur Aufklärung der Struktur, Dynamik und biologischen Aktivität von Molekülen unter Verwendung von NMR spektroskopischen und empirischen Parametern

    Get PDF
    In der vorliegenden Arbeit werden Verfahren der Mathematik und Informatik entwickelt und eingesetzt, um Struktur, Dynamik und biologische Aktivität aus NMR spektroskopischen und empirischen Parametern zu bestimmen. Dolastatin 10 und Epothilon A sind potentielle Wirkstoffe gegen Krebs, da sie durch Wechselwirkung mit Tubulin die Zellteilung unterbinden. Die 3D Struktur beider Wirkstoffe in Lösung und die Struktur von an Tubulin gebundenem Epothilon A wird aus NMR spektroskopischen Parametern bestimmt. Dolastatin 10 liegt in einem konformationellen Gleichgewicht zwischen der cis -- und trans -- Konformation in der ungewöhnlichen Aminosäure DAP vor. Beide Konformationen des flexiblen Pentapeptids können bestimmt werden mit RMSD = 1.423 Å für das cis -- Konformer und RMSD = 1.488 Å für das trans -- Konformer. Während das trans -- Konformer gestreckt vorliegt, faltet das cis -- Konformer am DAP zurück. Epothilone A ist durch einen Makrozyklus weniger flexibel und sowohl die an Tubulin gebundene Struktur (RMSD = 0.537 Å) als auch freie Form (RMSD = 0.497 Å) kann mit geringen RMSD -- Werten bestimmt werden. Die Struktur der freien Form, welche in Lösung hauptsächlich vorliegt, ist mit der Röntgenstruktur weitgehend identisch. In der an Tubulin gebundenen Form wird eine essentielle Umorientierung der Seitenkette beobachtet, die für die Wechselwirkung mit Tubulin entscheidend ist. Dipolare Kopplungen eines Proteins sind geeignet, eine 3D Homologiesuche in der PDB durchzuführen, da die relative Orientierung von Sekundärstrukturelementen und Domänen durch sie beschrieben wird 85 . Die frühe Erkennung 3D homologer Proteinfaltungen eröffnet die Möglichkeit, die Bestimmung von Proteinstrukturen zu beschleunigen. Eine Homolgiesuche unter Nutzung dipolarer Kopplungen ist in der Lage, Proteine oder zumindest Fragmente mit ähnlicher 3D Struktur zu finden, auch wenn die Primärsequenzhomologie gering ist. Darüber hinaus wird eine Transformation für experimentelle dipolare Kopplungen entwickelt, die die indirekte Orientierungsinformation eines Vektors relativ zu einem externen Tensor in den möglichen Bereich für den Projektionswinkel zwischen zwei Vektoren und somit in eine intramolekulare Strukturinformation übersetzt. Diese Einschränkungen können in der Strukturbestimmung von Proteinen mittels Molekulardynamik genutzt werden 92 . Im Gegensatz zu allen existierenden Implementierungen wird die Konvergenz der Rechnung durch die auf diese Weise eingeführten dipolare Kopplungsinformation kaum beeinflusst. Die dipolaren Kopplungen werden trotzdem von den errechneten Strukturen erfüllt. Auch ohne die Nutzung bereits bekannter Protein­ oder Fragmentstrukturen kann so ein erheblicher Teil der NOE -- Information substituiert werden. Die Dynamik des Vektors, der die beiden wechselwirkenden Dipole verbindet, beeinflusst den Messwert der dipolaren Kopplung. Dadurch wird Information über die Dynamik von Molekülen auf der µs­Zeitskala zugänglich, die bisher nur schwer untersucht werden konnte. Die Messung dipolarer Kopplungen für einen Vektor in verschiedenen Orientierungen erlaubt die Analyse seiner Bewegung 89 . Im besonderen ist die Ableitung eines modellfreien Ordnungsparameters 2 S möglich. Weiterhin lassen sich ebenso modellfrei eine mittlere Orientierung des Vektors, axialsymmetrische Anteile und nichtaxialsymmetrische Anteile der Dynamik ableiten und auswerten. Die Anwendung der so entwickelten Protokolle auf experimentelle Daten 90 lässt Proteine deutlich dynamischer erscheinen als auf der Zeitskala der Relaxationsexperimente zu erkennen ist. Der mittlere Ordnungsparameter sinkt von 0.8 auf 0.6. Dies entspricht einer Erhöhung des Öffnungswinkels der Bewegung von ca. 22 ° auf ca. 33°. Die Bewegungen weichen teilweise bis zu 40% und im Mittel 15% von der Axialsymmetrie ab. Neuronale Netze erlauben eine schnelle (ca. 5000 chemische Verschiebungen pro Sekunde) und exakte (mittleren Abweichung von 1.6 ppm) Berechnung der 13 C NMR chemischen Verschiebung 115 . Dabei kombinieren sie die Vorteile bisher bekannter Datenbankabschätzungen (hohe Genauigkeit) und Inkrementverfahren (hohe Geschwindigkeit). Das 13 C NMR Spektrum einer organischen Verbindung stellt eine detaillierte Beschreibung seiner Struktur dar. Resultate des Strukturgenerators COCON können durch den Vergleich des experimentellen mit den berechneten 13 C NMR Spektren auf ca. 1 o/oo der vorgeschlagenen Strukturen eingeschränkt werden, die eine geringe Abweichung zum experimentellen Spektrum haben 122 . Die Kombination mit einer Substrukturanalyse erlaubt weiterhin die Erkennung wahrscheinlicher, geschlossener Ringsysteme und gibt einen Überblick über die Struktur des generierten Konstitutionssubraumes. Genetische Algorithmen können die Struktur organischer Moleküle ausgehend von derer Summenformel auf eine Übereinstimmung mit dem experimentellen 13 C NMR Spektrum optimieren. Die Konstitution von Molekülen wird dafür durch einen Vektor der Bindungszustände zwischen allen Atom -- Atom Paaren beschrieben. Selbige Vektoren sind geeignet, in einem genetischen Algorithmus als genetischer Code von Konstitutionen betrachtet zu werden. Diese Methode erlaubt die automatisierte Bestimmung der Konstitution von Molekülen mit 10 bis 20 Nichtwasserstoffatomen 123 . Symmetrische neuronale Netze können fünf bzw. sieben dimensionale, heterogene Parameterrepräsentationen der 20 proteinogenen Aminosäuren unter Erhalt der wesentlichen Information in den dreidimensionalen Raum projizieren 134 . Die niederdimensionalen Projektionen ermöglichen eine Visualisierung der Beziehungen der Aminosäuren untereinander. Die reduzierten Parameterrepräsentationen sind geeignet, als Eingabe für ein neuronales Netz zu dienen, welches die Sekundärstruktur eines Proteins mit einer Genauigkeit von 66 % im Q 3 -- Wert berechnet. Neuronale Netzte sind aufgrund ihrer flexiblen Struktur besonders geeignet, quantitative Beziehungen zwischen Struktur und Aktivität zu beschreiben, da hier hochgradig nichtlineare, komplexe Zusammenhänge vorliegen. Eine numerische Codierung der über 200 in der Literatur beschriebenen Epothilonderivate erlaubt es, Modelle zur Berechnung der Induktion der Tubulin Polymerisation (R = 0.73) und der Inhibierung des Krebszellenwachstums (R = 0.94) zu erstellen 136 . Die trainierten neuronalen Netze können in einer Sensitivitätsanalyse genutzt werden, um die Bindungsstellen des Moleküls zu identifizieren. Aus der Berechnung der Aktivität für alle Moleküle des durch die Parameter definierten Strukturraums ergeben sich Vorschläge für Epothilonderivate, die bis zu 1 000 mal aktiver als die bisher synthetisierten sein könnten

    High resolution self-organizing maps

    No full text
    dissertn: Diss. Doct

    High-resolution Self-Organizing Maps for advanced visualization and dimension reduction

    No full text
    2018 Elsevier Ltd Kohonen\u27s Self Organizing feature Map (SOM) provides an effective way to project high dimensional input features onto a low dimensional display space while preserving the topological relationships among the input features. Recent advances in algorithms that take advantages of modern computing hardware introduced the concept of high resolution SOMs (HRSOMs). This paper investigates the capabilities and applicability of the HRSOM as a visualization tool for cluster analysis and its suitabilities to serve as a pre-processor in ensemble learning models. The evaluation is conducted on a number of established benchmarks and real-world learning problems, namely, the policeman benchmark, two web spam detection problems, a network intrusion detection problem, and a malware detection problem. It is found that the visualization resulted from an HRSOM provides new insights concerning these learning problems. It is furthermore shown empirically that broad benefits from the use of HRSOMs in both clustering and classification problems can be expected
    corecore