427 research outputs found

    Oblique survival trees based on dipolar splitting criteria

    Get PDF
    Access to thesis permanently restricted to Ball State community onlySurvival analysis, which is the study of time to event distributions, has wide application in epidemiology, engineering and finance, among many others. Semi-parametric and parametric models have been developed to accommodate survival data. More recently, machine learning approaches, such as support vector machines, neural networks and survival forests, have been successfully developed to model survival data. Ensemble methods such as survival forests depend on splitting data at nodes in underlying decision trees. Various splitting criteria have been proposed and implemented using within or between-node homogeneity. In this work, we show improvement and clarification of existing algorithms which rely on non-parametric, dipolar splits by hyperplanes for maximizing between-node homogeneity. We will demonstrate the predictive power of these decision trees on real and simulated data sets. These models can be used in ensemble methods to reduce variability and improve predictive power on test sets.Thesis (M.S.

    Mean-Field Theory of Meta-Learning

    Full text link
    We discuss here the mean-field theory for a cellular automata model of meta-learning. The meta-learning is the process of combining outcomes of individual learning procedures in order to determine the final decision with higher accuracy than any single learning method. Our method is constructed from an ensemble of interacting, learning agents, that acquire and process incoming information using various types, or different versions of machine learning algorithms. The abstract learning space, where all agents are located, is constructed here using a fully connected model that couples all agents with random strength values. The cellular automata network simulates the higher level integration of information acquired from the independent learning trials. The final classification of incoming input data is therefore defined as the stationary state of the meta-learning system using simple majority rule, yet the minority clusters that share opposite classification outcome can be observed in the system. Therefore, the probability of selecting proper class for a given input data, can be estimated even without the prior knowledge of its affiliation. The fuzzy logic can be easily introduced into the system, even if learning agents are build from simple binary classification machine learning algorithms by calculating the percentage of agreeing agents.Comment: 23 page

    A Comprehensive Review of Bio-Inspired Optimization Algorithms Including Applications in Microelectronics and Nanophotonics

    Get PDF
    The application of artificial intelligence in everyday life is becoming all-pervasive and unavoidable. Within that vast field, a special place belongs to biomimetic/bio-inspired algorithms for multiparameter optimization, which find their use in a large number of areas. Novel methods and advances are being published at an accelerated pace. Because of that, in spite of the fact that there are a lot of surveys and reviews in the field, they quickly become dated. Thus, it is of importance to keep pace with the current developments. In this review, we first consider a possible classification of bio-inspired multiparameter optimization methods because papers dedicated to that area are relatively scarce and often contradictory. We proceed by describing in some detail some more prominent approaches, as well as those most recently published. Finally, we consider the use of biomimetic algorithms in two related wide fields, namely microelectronics (including circuit design optimization) and nanophotonics (including inverse design of structures such as photonic crystals, nanoplasmonic configurations and metamaterials). We attempted to keep this broad survey self-contained so it can be of use not only to scholars in the related fields, but also to all those interested in the latest developments in this attractive area

    Mathematische Verfahren zur Aufklärung der Struktur, Dynamik und biologischen Aktivität von Molekülen unter Verwendung von NMR spektroskopischen und empirischen Parametern

    Get PDF
    In der vorliegenden Arbeit werden Verfahren der Mathematik und Informatik entwickelt und eingesetzt, um Struktur, Dynamik und biologische Aktivität aus NMR spektroskopischen und empirischen Parametern zu bestimmen. Dolastatin 10 und Epothilon A sind potentielle Wirkstoffe gegen Krebs, da sie durch Wechselwirkung mit Tubulin die Zellteilung unterbinden. Die 3D Struktur beider Wirkstoffe in Lösung und die Struktur von an Tubulin gebundenem Epothilon A wird aus NMR spektroskopischen Parametern bestimmt. Dolastatin 10 liegt in einem konformationellen Gleichgewicht zwischen der cis -- und trans -- Konformation in der ungewöhnlichen Aminosäure DAP vor. Beide Konformationen des flexiblen Pentapeptids können bestimmt werden mit RMSD = 1.423 Å für das cis -- Konformer und RMSD = 1.488 Å für das trans -- Konformer. Während das trans -- Konformer gestreckt vorliegt, faltet das cis -- Konformer am DAP zurück. Epothilone A ist durch einen Makrozyklus weniger flexibel und sowohl die an Tubulin gebundene Struktur (RMSD = 0.537 Å) als auch freie Form (RMSD = 0.497 Å) kann mit geringen RMSD -- Werten bestimmt werden. Die Struktur der freien Form, welche in Lösung hauptsächlich vorliegt, ist mit der Röntgenstruktur weitgehend identisch. In der an Tubulin gebundenen Form wird eine essentielle Umorientierung der Seitenkette beobachtet, die für die Wechselwirkung mit Tubulin entscheidend ist. Dipolare Kopplungen eines Proteins sind geeignet, eine 3D Homologiesuche in der PDB durchzuführen, da die relative Orientierung von Sekundärstrukturelementen und Domänen durch sie beschrieben wird 85 . Die frühe Erkennung 3D homologer Proteinfaltungen eröffnet die Möglichkeit, die Bestimmung von Proteinstrukturen zu beschleunigen. Eine Homolgiesuche unter Nutzung dipolarer Kopplungen ist in der Lage, Proteine oder zumindest Fragmente mit ähnlicher 3D Struktur zu finden, auch wenn die Primärsequenzhomologie gering ist. Darüber hinaus wird eine Transformation für experimentelle dipolare Kopplungen entwickelt, die die indirekte Orientierungsinformation eines Vektors relativ zu einem externen Tensor in den möglichen Bereich für den Projektionswinkel zwischen zwei Vektoren und somit in eine intramolekulare Strukturinformation übersetzt. Diese Einschränkungen können in der Strukturbestimmung von Proteinen mittels Molekulardynamik genutzt werden 92 . Im Gegensatz zu allen existierenden Implementierungen wird die Konvergenz der Rechnung durch die auf diese Weise eingeführten dipolare Kopplungsinformation kaum beeinflusst. Die dipolaren Kopplungen werden trotzdem von den errechneten Strukturen erfüllt. Auch ohne die Nutzung bereits bekannter Protein­ oder Fragmentstrukturen kann so ein erheblicher Teil der NOE -- Information substituiert werden. Die Dynamik des Vektors, der die beiden wechselwirkenden Dipole verbindet, beeinflusst den Messwert der dipolaren Kopplung. Dadurch wird Information über die Dynamik von Molekülen auf der µs­Zeitskala zugänglich, die bisher nur schwer untersucht werden konnte. Die Messung dipolarer Kopplungen für einen Vektor in verschiedenen Orientierungen erlaubt die Analyse seiner Bewegung 89 . Im besonderen ist die Ableitung eines modellfreien Ordnungsparameters 2 S möglich. Weiterhin lassen sich ebenso modellfrei eine mittlere Orientierung des Vektors, axialsymmetrische Anteile und nichtaxialsymmetrische Anteile der Dynamik ableiten und auswerten. Die Anwendung der so entwickelten Protokolle auf experimentelle Daten 90 lässt Proteine deutlich dynamischer erscheinen als auf der Zeitskala der Relaxationsexperimente zu erkennen ist. Der mittlere Ordnungsparameter sinkt von 0.8 auf 0.6. Dies entspricht einer Erhöhung des Öffnungswinkels der Bewegung von ca. 22 ° auf ca. 33°. Die Bewegungen weichen teilweise bis zu 40% und im Mittel 15% von der Axialsymmetrie ab. Neuronale Netze erlauben eine schnelle (ca. 5000 chemische Verschiebungen pro Sekunde) und exakte (mittleren Abweichung von 1.6 ppm) Berechnung der 13 C NMR chemischen Verschiebung 115 . Dabei kombinieren sie die Vorteile bisher bekannter Datenbankabschätzungen (hohe Genauigkeit) und Inkrementverfahren (hohe Geschwindigkeit). Das 13 C NMR Spektrum einer organischen Verbindung stellt eine detaillierte Beschreibung seiner Struktur dar. Resultate des Strukturgenerators COCON können durch den Vergleich des experimentellen mit den berechneten 13 C NMR Spektren auf ca. 1 o/oo der vorgeschlagenen Strukturen eingeschränkt werden, die eine geringe Abweichung zum experimentellen Spektrum haben 122 . Die Kombination mit einer Substrukturanalyse erlaubt weiterhin die Erkennung wahrscheinlicher, geschlossener Ringsysteme und gibt einen Überblick über die Struktur des generierten Konstitutionssubraumes. Genetische Algorithmen können die Struktur organischer Moleküle ausgehend von derer Summenformel auf eine Übereinstimmung mit dem experimentellen 13 C NMR Spektrum optimieren. Die Konstitution von Molekülen wird dafür durch einen Vektor der Bindungszustände zwischen allen Atom -- Atom Paaren beschrieben. Selbige Vektoren sind geeignet, in einem genetischen Algorithmus als genetischer Code von Konstitutionen betrachtet zu werden. Diese Methode erlaubt die automatisierte Bestimmung der Konstitution von Molekülen mit 10 bis 20 Nichtwasserstoffatomen 123 . Symmetrische neuronale Netze können fünf bzw. sieben dimensionale, heterogene Parameterrepräsentationen der 20 proteinogenen Aminosäuren unter Erhalt der wesentlichen Information in den dreidimensionalen Raum projizieren 134 . Die niederdimensionalen Projektionen ermöglichen eine Visualisierung der Beziehungen der Aminosäuren untereinander. Die reduzierten Parameterrepräsentationen sind geeignet, als Eingabe für ein neuronales Netz zu dienen, welches die Sekundärstruktur eines Proteins mit einer Genauigkeit von 66 % im Q 3 -- Wert berechnet. Neuronale Netzte sind aufgrund ihrer flexiblen Struktur besonders geeignet, quantitative Beziehungen zwischen Struktur und Aktivität zu beschreiben, da hier hochgradig nichtlineare, komplexe Zusammenhänge vorliegen. Eine numerische Codierung der über 200 in der Literatur beschriebenen Epothilonderivate erlaubt es, Modelle zur Berechnung der Induktion der Tubulin Polymerisation (R = 0.73) und der Inhibierung des Krebszellenwachstums (R = 0.94) zu erstellen 136 . Die trainierten neuronalen Netze können in einer Sensitivitätsanalyse genutzt werden, um die Bindungsstellen des Moleküls zu identifizieren. Aus der Berechnung der Aktivität für alle Moleküle des durch die Parameter definierten Strukturraums ergeben sich Vorschläge für Epothilonderivate, die bis zu 1 000 mal aktiver als die bisher synthetisierten sein könnten

    The Structure of Mouse Cytomegalovirus m04 Protein Obtained from Sparse NMR Data Reveals a Conserved Fold of the m02-m06 Viral Immune Modulator Family

    Get PDF
    SummaryImmunoevasins are key proteins used by viruses to subvert host immune responses. Determining their high-resolution structures is key to understanding virus-host interactions toward the design of vaccines and other antiviral therapies. Mouse cytomegalovirus encodes a unique set of immunoevasins, the m02-m06 family, that modulates major histocompatibility complex class I (MHC-I) antigen presentation to CD8+ T cells and natural killer cells. Notwithstanding the large number of genetic and functional studies, the structural biology of immunoevasins remains incompletely understood, largely because of crystallization bottlenecks. Here we implement a technology using sparse nuclear magnetic resonance data and integrative Rosetta modeling to determine the structure of the m04/gp34 immunoevasin extracellular domain. The structure reveals a β fold that is representative of the m02-m06 family of viral proteins, several of which are known to bind MHC-I molecules and interfere with antigen presentation, suggesting its role as a diversified immune regulation module

    Big Data Analytics and Information Science for Business and Biomedical Applications

    Get PDF
    The analysis of Big Data in biomedical as well as business and financial research has drawn much attention from researchers worldwide. This book provides a platform for the deep discussion of state-of-the-art statistical methods developed for the analysis of Big Data in these areas. Both applied and theoretical contributions are showcased

    Magnetism, FeS colloids, and Origins of Life

    Full text link
    A number of features of living systems: reversible interactions and weak bonds underlying motor-dynamics; gel-sol transitions; cellular connected fractal organization; asymmetry in interactions and organization; quantum coherent phenomena; to name some, can have a natural accounting via physicalphysical interactions, which we therefore seek to incorporate by expanding the horizons of `chemistry-only' approaches to the origins of life. It is suggested that the magnetic 'face' of the minerals from the inorganic world, recognized to have played a pivotal role in initiating Life, may throw light on some of these issues. A magnetic environment in the form of rocks in the Hadean Ocean could have enabled the accretion and therefore an ordered confinement of super-paramagnetic colloids within a structured phase. A moderate H-field can help magnetic nano-particles to not only overcome thermal fluctuations but also harness them. Such controlled dynamics brings in the possibility of accessing quantum effects, which together with frustrations in magnetic ordering and hysteresis (a natural mechanism for a primitive memory) could throw light on the birth of biological information which, as Abel argues, requires a combination of order and complexity. This scenario gains strength from observations of scale-free framboidal forms of the greigite mineral, with a magnetic basis of assembly. And greigite's metabolic potential plays a key role in the mound scenario of Russell and coworkers-an expansion of which is suggested for including magnetism.Comment: 42 pages, 5 figures, to be published in A.R. Memorial volume, Ed Krishnaswami Alladi, Springer 201

    A novel regulatory unit in the N-terminal region of c-Src

    Get PDF
    [eng] c-Src is a central player in several cellular signaling pathways. It controls impor- tant cellular processes like cellular proliferation, survival or motility. Therefore, a number of tumoral diseases have been related to abnormal c-Src activity. Among them, colorectal cancer stands out, as c-Src deregulation correlates with tumor progression and clinical outcome. This tyrosine kinase is part of a larger group of functionally and structurally related proteins termed Src Family Kinases. These proteins share the same domain architecture: a cassette formed by a catalytic domain (SH1), two reg- ulatory domains, SH2 and SH3, and a variable intrinsically disordered region (the Unique domain) that ultimately anchors to the inner face of the cellular membrane via the N-terminal SH4 domain, also disordered. The sequence and structure of the cassette are highly conserved, and thus unsurprisingly Src Family Kinases perform closely related and often overlapping functions. However, the role of intrinsically disordered regions has remained unclear, although they are known to be functionally relevant. In this work, the structural and functional relationship between the intrinsically disordered SH4 and Unique domains with the neighboring folded SH3 domain in c-Src is explored. Interactions between disordered and ordered proteins are often characterized by the formation of complexes that are specific and functional but structurally heterogeneous. Moreover, conformational plasticity is a fundamental feature for function. These assemblies are known as fuzzy complexes. Here this theoretical framework, usually applied to isolated partners, is extended to the intramolecular interface between covalently bound domains instead of isolated pairs. The concept of fuzzy binding is also used in order to describe interactions based on sets of dynamic, transient, and promiscuous contacts between ill-defined sets of interactors. In order to characterize the system, an integrative strategy using short and long range Nuclear Magnetic Resonance techniques and Small Angle X-ray Scattering is applied to several constructs containing different combinations of bound or isolated domains. It is demonstrated that the folded SH3 domain acts as a scaffold for the disordered region, which interacts in a specific manner with its partner. Both disordered domains, SH4 and Unique, are involved in the process albeit they contribute differently. Additionally, it is shown that the Unique domain is not a random coil, but contains a significant degree of pre-arrangement that is independent of the scaffold. Sequence determinants are then searched by comparison of the sequences of different Src Family Kinases. Four conserved phenylalanine residues are found and their implication in Unique domain pre-organization and Unique:SH3 domain interaction tested. All these amino acids are found to favor compaction of the intrinsically disordered region, and at the same time to perturb close contact with the scaffold. In addition, mutations in the interacting zones of the SH3 domain are also studied to test reciprocity. In all, the fuzzy complex model is proven for the SH4:Unique:SH3 system. Then, the results are extrapolated to the full-length c-Src to test its biological relevance. A co evolutionary analysis suggests that the fuzzy model may be a general feature for the whole Src Family, so the closest member of the family, Yes, is also tested experimentally. The initial results on long-range contacts suggests a similar arrangement between the scaffold and the disordered region. In all, it is suggested that plastic, fuzzy interfaces between ordered and disordered domains may be a relevant mode for the transmission of functional information within multidomain proteins. Finally, a first approach for a structural study of the c-Src fuzzy complex in a native-like lipid environment, including natural co-translational modifications, is presented. A protocol for sample preparation is developed and Dynamic Nuclear Polarization solid state NMR is shown to be an adequate tool for further analysis.[spa] c-Src es una tirosina quinasa clave en múltiples rutas de señalización celulares. Su desregulación ha sido asociada a diversos procesos tumorales, entre los que destaca el cáncer de cólon. Una actividad anómala de c-Src se correlaciona con el desarrollo tumoral y pronóstico clínico desfavorable. c-Src forma parte de un grupo de proteínas relacionadas estructural y funcional- mente, la Familia de Quinasas Src. Todas ellas comparten la misma arquitectura modular, que incluye un dominio catalítico (SH1), dos dominios regulatorios, SH2 y SH3, y a continuación una región variable intrínsecamente desordenada que incluye los dominios Único y SH4. Mientras que el segmento ordenado está bien caracterizado, el papel de la región desordenada no está claro, aunque es funcionalmente relevante. En este trabajo se explora la relación estructural y funcional entre la región desordenada y el dominio ordenado adyacente SH3. Dado que este tipo de interacciones implican un grado significativo de heterogeneidad estructural, se ha aplicado el concepto de unión difusa para caracterizar este sistema. Este marco teórico permite modelar interacciones basadas en contactos dinámicos y transitorios entre múltiples interactores vagamente definidos, que sin embargo son específicos y funcionales. Para ello, se ha usado una estrategia que implica el uso combinado de técnicas de Resonancia Magnética Nuclear de largo y corto alcance, así como Dispersión de rayos X a Bajo Ángulo. Se demuestra así que el dominio plegado SH3 actúa como armazón para la región desordenada, que a su vez contiene un grado significativo de pre-organización estructural. Se han identificado cuatro fenilalaninas en el dominio Único responsables de esta pre-formación que también afectan a la interacción entre la región desordenada y el armazón. Los resultados demuestran que el conjunto de dominios SH4, Único y SH3 forman una unidad funcional que puede ser definida como un complejo difuso. Además, datos teóricos y experimentales de otros miembros de la familia sugieren que el modelo difuso es una característica común de todos ellos. Finalmente, se ha demostrado que la Resonancia Magnética de estado sólido con Polarización Dinámica Nuclear es una técnica adecuada para el estudio estructural de c-Src unida a una matriz lipídica similar a la natural
    corecore