23 research outputs found

    The effect of noise and sample size on an unsupervised feature selection method for manifold learning

    Get PDF
    The research on unsupervised feature selection is scarce in comparison to that for supervised models, despite the fact that this is an important issue for many clustering problems. An unsupervised feature selection method for general Finite Mixture Models was recently proposed and subsequently extended to Generative Topographic Mapping (GTM), a manifold learning constrained mixture model that provides data visualization. Some of the results of a previous partial assessment of this unsupervised feature selection method for GTM suggested that its performance may be affected by insufficient sample size and by noisy data. In this brief study, we test in some detail such limitations of the method.Postprint (published version

    Advanced Statistical Machine Learning Methods for the Analysis of Neurophysiologic Data with Medical Application

    Get PDF
    Transcranial magnetic stimulation procedures use a magnetic field to carry a short-lasting electrical current pulse into the brain, where it stimulates neurons, particularly in superficial regions of the cerebral cortex. It is a powerfull tool to calculate several parameters related to the intracortical excitability and inhibition of the motor cortex. The cortical silent period (CSP), evoked by magnetic stimulation, corresponds to the suppression of muscle activity for a short period after a muscle response to a magnetic stimulation. The duration of the CSP is paramount to assess intracortical inhibition, and it is known to be correlated with the prognosis of stroke patients’ motor ability. Current mechanisms to estimate the duration of the CSP are mostly based on the analysis of raw electromyographical (EMG) signal and they are very sensitive to the presence of noise. This master thesis is devoted to the analysis of the EMG signal of stroke patients under rehabilitation. The use of advanced statistical machine learning techniques that behave robustly in the presence of noise for this analysis allows us to accurately estimate signal parameters such as the CSP. The research reported in this thesis provides us with a first evidence about their applicability in other areas of neuroscience

    Advanced Statistical Machine Learning Methods for the Analysis of Neurophysiologic Data with Medical Application

    Get PDF
    Transcranial magnetic stimulation procedures use a magnetic field to carry a short-lasting electrical current pulse into the brain, where it stimulates neurons, particularly in superficial regions of the cerebral cortex. It is a powerfull tool to calculate several parameters related to the intracortical excitability and inhibition of the motor cortex. The cortical silent period (CSP), evoked by magnetic stimulation, corresponds to the suppression of muscle activity for a short period after a muscle response to a magnetic stimulation. The duration of the CSP is paramount to assess intracortical inhibition, and it is known to be correlated with the prognosis of stroke patients’ motor ability. Current mechanisms to estimate the duration of the CSP are mostly based on the analysis of raw electromyographical (EMG) signal and they are very sensitive to the presence of noise. This master thesis is devoted to the analysis of the EMG signal of stroke patients under rehabilitation. The use of advanced statistical machine learning techniques that behave robustly in the presence of noise for this analysis allows us to accurately estimate signal parameters such as the CSP. The research reported in this thesis provides us with a first evidence about their applicability in other areas of neuroscience

    Measuring and Modifying Temozolomide Delivery in Brain Tumours

    Get PDF

    The effect of noise and sample size in the performance of an unsupervised feature relevant determination method for manifold learning

    Get PDF
    The research on unsupervised feature selection is scarce in comparison to that for supervised models, despite the fact that this is an important issue for many clustering problems. An unsupervised feature selection method for general Finite Mixture Models was recently proposed and subsequently extended to Generative Topographic Mapping (GTM), a manifold learning constrained mixture model that provides data clustering and visualization. Some of the results of previous research on this unsupervised feature selection method for GTM suggested that its performance may be affected by insuficient sample size and by noisy data. In this thesis, we test in detail such limitations of the method and outline some techniques that could provide an at least partial solution to the negative effect of the presence of uninformative noise. In particular, we provide a detailed account of a variational Bayesian formulation of feature relevance determination for GTM

    Evaluation of \u3csup\u3e18\u3c/sup\u3eF-IAM6067 as a sigma-1 receptor PET tracer for neurodegeneration in vivo in rodents and in human tissue

    Get PDF
    © The author(s). This is an open access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0/). See http://ivyspring.com/terms for full terms and conditions. The sigma 1 receptor (S1R) is widely expressed in the CNS and is mainly located on the endoplasmic reticulum. The S1R is involved in the regulation of many neurotransmission systems and, indirectly, in neurodegenerative diseases. The S1R may therefore represent an interesting neuronal biomarker in neurodegenerative diseases such as Parkinson\u27s (PD) or Alzheimer\u27s diseases (AD). Here we present the characterisation of the S1R-specific 18F-labelled tracer 18F-IAM6067 in two animal models and in human brain tissue. Methods: Wistar rats were used for PET-CT imaging (60 min dynamic acquisition) and metabolite analysis (1, 2, 5, 10, 20, 60 min post-injection). To verify in vivo selectivity, haloperidol, BD1047 (S1R ligand), CM398 (S2R ligand) and SB206553 (5HT2B/C antagonist) were administrated for pre-saturation studies. Excitotoxic lesions induced by intra-striatal injection of AMPA were also imaged by 18F-IAM6067 PET-CT to test the sensitivity of the methods in a well-established model of neuronal loss. Tracer brain uptake was also verified by autoradiography in rats and in a mouse model of PD (intrastriatal 6-hydroxydopamine (6-OHDA) unilateral lesion). Finally, human cortical binding was investigated by autoradiography in three groups of subjects (control subjects with Braak ≤2, and AD patients, Braak \u3e2 & ≤4 and Braak \u3e4 stages). Results: We demonstrate that despite rapid peripheral metabolism of 18F-IAM6067, radiolabelled metabolites were hardly detected in brain samples. Brain uptake of 18F-IAM6067 showed differences in S1R anatomical distribution, namely from high to low uptake: pons-raphe, thalamus medio-dorsal, substantia nigra, hypothalamus, cerebellum, cortical areas and striatum. Pre-saturation studies showed 79-90% blockade of the binding in all areas of the brain indicated above except with the 5HT2B/C antagonist SB206553 and S2R ligand CM398 which induced no significant blockade, indicating good specificity of 18F-IAM6067 for S1Rs. No difference between ipsi- and contralateral sides of the brain in the mouse model of PD was detected. AMPA lesion induced a significant 69% decrease in 18F-IAM6067 uptake in the globus pallidus matching the neuronal loss as measured by NeuN, but only a trend to decrease (-16%) in the caudate putamen despite a significant 91% decrease in neuronal count. Moreover, no difference in the human cortical binding was shown between AD groups and controls. Conclusion: This work shows that 18F-IAM6067 is a specific and selective S1R radiotracer. The absence or small changes in S1R detected here in animal models and human tissue warrants further investigations and suggests that S1R might not be the anticipated ideal biomarker for neuronal loss in neurodegenerative diseases such as AD and PD

    A moment kernel machine for clinical data mining to inform medical decision making

    Get PDF
    Machine learning-aided medical decision making presents three major challenges: achieving model parsimony, ensuring credible predictions, and providing real-time recommendations with high computational efficiency. In this paper, we formulate medical decision making as a classification problem and develop a moment kernel machine (MKM) to tackle these challenges. The main idea of our approach is to treat the clinical data of each patient as a probability distribution and leverage moment representations of these distributions to build the MKM, which transforms the high-dimensional clinical data to low-dimensional representations while retaining essential information. We then apply this machine to various pre-surgical clinical datasets to predict surgical outcomes and inform medical decision making, which requires significantly less computational power and time for classification while yielding favorable performance compared to existing methods. Moreover, we utilize synthetic datasets to demonstrate that the developed moment-based data mining framework is robust to noise and missing data, and achieves model parsimony giving an efficient way to generate satisfactory predictions to aid personalized medical decision making

    Visualization and interpretability in probabilistic dimensionality reduction models

    Get PDF
    Over the last few decades, data analysis has swiftly evolved from being a task addressed mainly within the remit of multivariate statistics, to an endevour in which data heterogeneity, complexity and even sheer size, driven by computational advances, call for alternative strategies, such as those provided by pattern recognition and machine learning. Any data analysis process aims to extract new knowledge from data. Knowledge extraction is not a trivial task and it is not limited to the generation of data models or the recognition of patterns. The use of machine learning techniques for multivariate data analysis should in fact aim to achieve a dual target: interpretability and good performance. At best, both aspects of this target should not conflict with each other. This gap between data modelling and knowledge extraction must be acknowledged, in the sense that we can only extract knowledge from models through a process of interpretation. Exploratory information visualization is becoming a very promising tool for interpretation. When exploring multivariate data through visualization, high data dimensionality can be a big constraint, and the use of dimensionality reduction techniques is often compulsory. The need to find flexible methods for data modelling has led to the development of non-linear dimensionality reduction techniques, and many state-of-the-art approaches of this type fall in the domain of probabilistic modelling. These non-linear techniques can provide a flexible data representation and a more faithful model of the observed data compared to the linear ones, but often at the expense of model interpretability, which has an impact in the model visualization results. In manifold learning non-linear dimensionality reduction methods, when a high-dimensional space is mapped onto a lower-dimensional one, the obtained embedded manifold is subject to local geometrical distortion induced by the non-linear mapping. This kind of distortion can often lead to misinterpretations of the data set structure and of the obtained patterns. It is important to give relevance to the problem of how to quantify and visualize the distortion itself in order to interpret data in a more faithful way. The research reported in this thesis focuses on the development of methods and techniques for explicitly reintroducing the local distortion created by non-linear dimensionality reduction models into the low-dimensional visualization of the data that they produce, as well as in the definition of metrics for probabilistic geometries to address this problem. We do not only provide methods only for static data, but also for multivariate time series. The reintegration of the quantified non-linear distortion into the visualization space of the analysed non-linear dimensionality reduction methods is a goal by itself, but we go beyond it and consider alternative adequate metrics for probabilistic manifold learning. For that, we study the role of \textit{Random geometries}, that is, distributions of manifolds, in machine learning and data analysis in general. Methods for the estimation of distributions of data-supporting Riemannian manifolds as well as algorithms for computing interpolants over distributions of manifolds are defined. Experimental results show that inference made according to the random Riemannian metric leads to a more faithful generation of unobserved data.Durant les últimes dècades, l’anàlisi de dades ha evolucionat ràpidament de ser una tasca dirigida principalment dins de l’àmbit de l’estadística multivariant, a un endevour en el qual l’heterogeneïtat de les dades, la complexitat i la simple grandària, impulsats pels avanços computacionals, exigeixen estratègies alternatives, tals com les previstes en el Reconeixement de Formes i l’Aprenentatge Automàtic. Qualsevol procés d’anàlisi de dades té com a objectiu extreure nou coneixement a partir de les dades. L’extracció de coneixement no és una tasca trivial i no es limita a la generació de models de dades o el reconeixement de patrons. L’ús de tècniques d’aprenentatge automàtic per a l’anàlisi de dades multivariades, de fet, hauria de tractar d’aconseguir un objectiu doble: la interpretabilitat i un bon rendiment. En el millor dels casos els dos aspectes d’aquest objectiu no han d’entrar en conflicte entre sí. S’ha de reconèixer la bretxa entre el modelatge de dades i l’extracció de coneixement, en el sentit que només podem extreure coneixement a partir dels models a través d’un procés d’interpretació. L’exploració de la visualització d’informació s’està convertint en una eina molt prometedora per a la interpretació dels models. Quan s’exploren les dades multivariades a través de la visualització, la gran dimensionalitat de les dades pot ser un obstacle, i moltes vegades és obligatori l’ús de tècniques de reducció de dimensionalitat. La necessitat de trobar mètodes flexibles per al modelatge de dades ha portat al desenvolupament de tècniques de reducció de dimensionalitat no lineals. L’estat de l’art d’aquests enfocaments cau moltes vegades en el domini de la modelització probabilística. Aquestes tècniques no lineals poden proporcionar una representació de les dades flexible i un model de les dades més fidel comparades amb els models lineals, però moltes vegades a costa de la interpretabilitat del model, que té un impacte en els resultats de visualització. En els mètodes d’aprenentatge de varietats amb reducció de dimensionalitat no lineals, quan un espai d’alta dimensió es projecta sobre un altre de dimensió menor, la varietat immersa obtinguda està subjecta a una distorsió geomètrica local induïda per la funció no lineal. Aquest tipus de distorsió pot conduir a interpretacions errònies de l’estructura del conjunt de dades i dels patrons obtinguts. Per això, és important donar rellevància al problema de com quantificar i visualitzar aquesta distorsió en sí, amb la finalitat d’interpretar les dades d’una manera més fidel. La recerca presentada en aquesta tesi se centra en el desenvolupament de mètodes i tècniques per reintroduir de forma explícita a l’espai de visualització la distorsió local creada per la funció no lineal. Aquesta recerca se centra també en la definició de mètriques per a geometries probabilístiques per fer front al problema de la distorsió de la funció en els models de reducció de dimensionalitat no lineals. No proporcionem mètodes només per a les dades estàtiques, sinó també per a sèries temporals multivariades. La reintegració de la distorsió no lineal a l’espai de visualització dels mètodes de reducció de dimensionalitat no lineals analitzats és un objectiu en sí mateix, però aquesta anàlisi va més enllà i considera també les mètriques probabilístiques adequades a l’aprenentatge de varietats probabilístiques. Per això, estudiem el paper de les Geometries Aleatòries (distribucions de les varietats) en Aprenentatge Automàtic i anàlisi de dades en general. Es defineixen aquí els mètodes per a l’estimació de les distribucions de varietats de Riemann de suport a les dades, així com els algorismes per calcular interpolants en les distribucions de varietats. Els resultats experimentals mostren que la inferència feta segons les mètriques de les varietats Riemannianes Aleatòries dóna origen a una generació de les dades observades més fidelDurant les últimes dècades, l'anàlisi de dades ha evolucionat ràpidament de ser una tasca dirigida principalment dins de l'àmbit de l'estadística multivariant, a un endevour en el qual l'heterogeneïtat de les dades, la complexitat i la simple grandària, impulsats pels avanços computacionals, exigeixen estratègies alternatives, tals com les previstes en el Reconeixement de Formes i l'Aprenentatge Automàtic. La recerca presentada en aquesta tesi se centra en el desenvolupament de mètodes i tècniques per reintroduir de forma explícita a l'espai de visualització la distorsió local creada per la funció no lineal. Aquesta recerca se centra també en la definició de mètriques per a geometries probabilístiques per fer front al problema de la distorsió de la funció en els models de reducció de dimensionalitat no lineals. No proporcionem mètodes només per a les dades estàtiques, sinó també per a sèries temporals multivariades. La reintegració de la distorsió no lineal a l'espai de visualització dels mètodes de reducció de dimensionalitat no lineals analitzats és un objectiu en sí mateix, però aquesta anàlisi va més enllà i considera també les mètriques probabilístiques adequades a l'aprenentatge de varietats probabilístiques. Per això, estudiem el paper de les Geometries Aleatòries (distribucions de les varietats) en Aprenentatge Automàtic i anàlisi de dades en general. Es defineixen aquí els mètodes per a l'estimació de les distribucions de varietats de Riemann de suport a les dades, així com els algorismes per calcular interpolants en les distribucions de varietats. Els resultats experimentals mostren que la inferència feta segons les mètriques de les varietats Riemannianes Aleatòries dóna origen a una generació de les dades observades més fidel. Qualsevol procés d'anàlisi de dades té com a objectiu extreure nou coneixement a partir de les dades. L'extracció de coneixement no és una tasca trivial i no es limita a la generació de models de dades o el reconeixement de patrons. L'ús de tècniques d'aprenentatge automàtic per a l'anàlisi de dades multivariades, de fet, hauria de tractar d'aconseguir un objectiu doble: la interpretabilitat i un bon rendiment. En el millor dels casos els dos aspectes d'aquest objectiu no han d'entrar en conflicte entre sí. S'ha de reconèixer la bretxa entre el modelatge de dades i l'extracció de coneixement, en el sentit que només podem extreure coneixement a partir dels models a través d'un procés d'interpretació. L'exploració de la visualització d'informació s'està convertint en una eina molt prometedora per a la interpretació dels models. Quan s'exploren les dades multivariades a través de la visualització, la gran dimensionalitat de les dades pot ser un obstacle, i moltes vegades és obligatori l'ús de tècniques de reducció de dimensionalitat. La necessitat de trobar mètodes flexibles per al modelatge de dades ha portat al desenvolupament de tècniques de reducció de dimensionalitat no lineals. L'estat de l'art d'aquests enfocaments cau moltes vegades en el domini de la modelització probabilística. Aquestes tècniques no lineals poden proporcionar una representació de les dades flexible i un model de les dades més fidel comparades amb els models lineals, però moltes vegades a costa de la interpretabilitat del model, que té un impacte en els resultats de visualització. En els mètodes d'aprenentatge de varietats amb reducció de dimensionalitat no lineals, quan un espai d'alta dimensió es projecta sobre un altre de dimensió menor, la varietat immersa obtinguda està subjecta a una distorsió geomètrica local induïda per la funció no lineal. Aquest tipus de distorsió pot conduir a interpretacions errònies de l'estructura del conjunt de dades i dels patrons obtinguts. Per això, és important donar rellevància al problema de com quantificar i visualitzar aquesta distorsió en sì, amb la finalitat d'interpretar les dades d'una manera més fidel