Search CORE

4 research outputs found

K-means cluster analysis of the West African species of cereals based on nutritional value composition

Author: Atsa’am D.D.
Balogun O.S.
Blamah N.V.
Oyelere S.S.
Wario R.
Publication venue: AFRICAN SCHOLARLY SCIENCE COMMUNICATIONS TRUST (ASSCAT)
Publication date: 21/06/2021
Field of study

The K-means algorithm was deployed to extract clusters within the prevalent cereal foods in West Africa. The West Africa Food Composition Table (WAFCT) presents all the 76 food sources in the cereals class as a single group without considering the similarity or dissimilarity in nutritional values. Using K-means clustering, the Euclidean distance between nutritional values of all cereal food items were measured to generate six sub- groups based on similarity. A one-way analysis to validate the results of the extracted clusters was carried out using the mean square values. For every nutrient, the “within groups” and “between groups” values of the mean squares were examined. This was done to ascertain how similar or dissimilar data points in the same or different clusters were to each other. It was discovered that the P values for all “between groups” and “within groups” mean squares for every nutrient was P < 0.01. Additionally, it was observed that in all cases, the mean square values of the “within groups” were significantly lower than those of the “between groups”. These outcomes are indications that clustering was properly done such that the variability in nutrient values for all food sources within the same clusters was significantly low, while those in different clusters were significantlyhigh. Thus, the ultimate objective of clustering, which is to maximize intra-cluster similarity and minimize inter-cluster similarity was effectively achieved. Cluster analysis in this study showed that all food items within a particular cluster are similar to each other and dissimilar to food items in a different cluster. These findings are valuable in dietaries, food labeling, raw materials selection, public health nutrition, and food science research, when answering questions on the choice of alternative food items. Where original choices are not available or unaffordable, the clusters can be explored to select other similar options within the same cluster as the original choice.&nbsp

AJOL - African Journals Online

Spectral clustering and fuzzy similarity measure for images segmentation

Author: Flórez-Marulanda Juan Fernando
Lizarazo-Chilamá Pablo
Muñoz-España Elena
Rodríguez-Fernández Juan Pablo
Publication venue: 'Universidad Industrial de Santander'
Publication date: 22/06/2022
Field of study

In image segmentation algorithms using spectral clustering, due to the size of the images, the computational load for the construction of the similarity matrix and the solution to the eigenvalue problem for the Laplacian matrix is high. Furthermore, the Gaussian kernel similarity measure is the most used, but it presents problems with irregular data distributions. This work proposes to perform a pre-segmentation or decimation by superpixels with the Simple Linear Iterative Clustering algorithm to reduce the computational cost, and to build the similarity matrix with a fuzzy measure based on the Fuzzy C-Means classifier, providing the algorithm a greater robustness against images with complex distributions and by spectral clustering the final segmentation is determined. Experimentally, it was found that the proposed approach obtains adequate segmentations, good clustering results and a comparable precision with respect to five algorithms; measuring performance under four determined validation metrics.En los algoritmos de segmentación de imágenes mediante agrupamiento espectral, debido al tamaño de las imágenes, la carga computacional para la construcción de la matriz de similitud y la solución al problema de valores propios para la matriz laplaciana son altos. Además, la medida de similitud más utilizada es el kernel gaussiano, el cual presenta problemas con distribuciones de datos irregulares. Este trabajo propone realizar una presegmentación o diezmado mediante superpíxeles con el algoritmo Simple Linear Iterative Clustering, para disminuir el costo computacional y construir la matriz de similaridad con una medida difusa basada en el clasificador Fuzzy C-Means, que proporciona al algoritmo una mayor robustez frente a imágenes con distribuciones complejas; mediante agrupamiento espectral se determina la segmentación final. Experimentalmente, se comprobó que el enfoque propuesto obtiene segmentaciones adecuadas, buenos resultados de agrupamiento y una precisión comparable respecto a cinco algoritmos, midiendo el desempeño bajo cuatro métricas de validación

Universidad Industrial de Santander: Revistas Institucionales UIS

Klaszterszám-meghatározási módszerek összehasonlítása

Author: Szüle Borbála
Publication venue: 'Statisztikai Szemle'
Publication date: 01/01/2019
Field of study

Repository of the Academy's Library

Exploring Molecular Diversity: There is Plenty of Room at Markush's

Author: Manén Freixa Leticia
Publication venue: Blanquerna - Universitat Ramon Llull
Publication date: 22/12/2022
Field of study

L'estratègia de les etapes inicials del descobriment de fàrmacs està normalment basada en un procés anomenat hit-to-lead que implica un extens estudi entorn de la síntesi de derivats d'una molècula original que prèviament hagi mostrat certa activitat biològica davant d'una diana concreta. Per tant, aquest procés comporta la síntesi de molts anàlegs que descriurien una subquimioteca, que generalment evidencia que aquests estudis estan molt focalitzats al voltant de l'espai químic del compost original. Així i tot, quan aquesta molècula és finalment patentada, es descriu un espai químic molt més vast per mitjà d'estructures Markush donant per suposat que alguns dels seus derivats puguin presentar també activitat biològica. Tot i això, la presència d'aquestes estructures no implica la síntesi comprovada de tota la biblioteca molecular sinó només una petita mostra de la mateixa. La nostra hipòtesi és que hi ha una gran part de l’espai químic d’aquestes biblioteques que està sense explorar i pot amagar possibles candidats que poden fins i tot superar l’activitat del hit original. A través d'aquest projecte, es proposa una alternativa que sosté que una selecció racional de poques molècules – basat en l'agrupament segons semblança molecular – pot representar de manera més significativa l'espai químic establert, oferint la possibilitat d'explorar regions desconegudes que podrien amagar més potencial biològic. Després de revisar els darrers fàrmacs aprovats per la FDA en el període del 2008 al 2020 i la base de dades de molècules bioactives de ChEMBL, s'ha dut a terme una exploració de l'ampli espai químic resultant de molècules petites amb propietats similars a les dels medicaments per definir nous espais accessibles que podrien ocultar activitat. Els resultats obtinguts de set casos d'estudis reals han demostrat que tant la selecció racional com l’aleatòria representen més significativament les biblioteques combinatòries declarades a les patents, que les molècules descrites fins ara. S'han realitzat dos estudis pràctics que implementen aquesta metodologia suggerida per descriure millor l'espai químic del fàrmac antipalúdic Tafenoquina i del Dacomitinib, un inhibidor de tirosina cinases de segona generació per al tractament del càncer de pulmó de cèl·lules no petites. L’exploració de l’espai químic d’aquestes dues famílies ha portat a la síntesi racional de set anàlegs antipalúdics i vuit inhibidors de cinases que han mostrat interessants activitats inhibidores. Aquests resultats demostren que l'aplicació de la quimioinformàtica per a la selecció de biblioteques pot millorar la capacitat d'inspeccionar millor els conjunts de dades químiques per identificar nous compostos precandidats i representar grans biblioteques per a posteriors campanyes de reposicionament.La estrategia de las etapas iniciales del descubrimiento de fármacos está normalmente basada en un proceso denominado hit-to-lead que implica un extenso estudio entorno a la síntesis de derivados de una molécula original que previamente haya expresado cierta actividad biológica frente a una diana concreta. Por ende, este proceso conlleva la síntesis de muchos análogos que describirían una sublibrería química, la cual generalmente evidencia que estos estudios están muy focalizados alrededor del espacio químico del compuesto original. Aún y así, cuando esta molécula es finalmente patentada, se describe un espacio químico mucho más vasto por medio de estructuras Markush teorizando que algunos de sus derivados puedan presentar también actividad biológica. Sin embargo, la presencia de estas estructuras no implica la síntesis comprobada de toda la biblioteca molecular sino solo una pequeña muestra de la misma. Nuestra hipótesis es que hay una gran parte del espacio químico de estas bibliotecas que está sin explorar y puede ocultar posibles candidatos que pueden hasta superar la actividad del hit original. A través de este proyecto, se propone una alternativa que sostiene que una selección racional de pocas moléculas – fundada en el agrupamiento según su similitud química – puede representar de manera más significativa el espacio químico establecido, ofreciendo la posibilidad de explorar regiones desconocidas que podrían ocultar más potencial biológico. Después de revisar los últimos fármacos aprobados por la FDA en el período de 2008 a 2020 y la base de datos de moléculas bioactivas de ChEMBL, se ha llevado a cabo una exploración del amplio espacio químico resultante de moléculas pequeñas con propiedades similares a las de los medicamentos para definir nuevos espacios accesible que podrían ocultar actividad. Los resultados obtenidos de siete casos de estudios reales han demostrado que tanto la selección racional como la aleatoria representan más significativamente las bibliotecas combinatorias declaradas en las patentes que las moléculas descritas hasta la fecha. Se han desarrollado dos estudios prácticos que implementan esta metodología sugerida para describir mejor el espacio químico del fármaco antipalúdico Tafenoquina y Dacomitinib, un inhibidor de la tirosina quinasa de segunda generación para el tratamiento del cáncer de pulmón de células no pequeñas. La exploración del espacio químico de estas dos familias ha llevado a la síntesis racional de siete análogos antipalúdicos y ocho inhibidores de quinasas que han mostrado interesantes actividades inhibidoras. Estos resultados demuestran que la aplicación de la quimioinformática para la selección de bibliotecas puede mejorar la capacidad de inspeccionar mejor los conjuntos de datos químicos para identificar nuevos potenciales hits y representar grandes bibliotecas para fines de reposicionamiento.The early Drug Discovery strategy is commonly based on a hit-to-lead process which involves large research on the synthesis of derivatives of an original molecule that had previously shown biological activity against a specific biological target. Therefore, this process implies the synthesis of many analogs leading to the description of a chemical sub-library which generally leads to a highly focused study on the chemical space nearby the hit compound. However, when this drug is finally patented, a wider chemical space derived from a Markush structure is described, theorizing that some analogs within may present biological activity. Nevertheless, this claim involving the Markush structure does not imply the proven synthesis of all the chemical library but just a small population of it. We hypothesize that there is a great part of the chemical space of these libraries that is unexplored and can hide potential lead candidates which may even surpass the activity of the original hit. Through this project, an alternative is proposed claiming that a rational selection of a short sample of small molecules – founded on similarity-based clustering – can represent more significatively the stated chemical space offering the possibility to explore the unknown space that could hide more potential biological activity. After a review on the latest approved drugs by the FDA in the period from 2008 to 2020 and the ChEMBL database of bioactive molecules, an exploration of the resulting wide chemical space of small molecules with drug-like properties has been assessed in order to define accessible spots that might hide biological activity. The obtained results from seven real cases of study have proven that random and rationally selected molecules represent more significantly the combinatorial libraries stated in the patents rather than the reported molecules until date. Furthermore, two practical studies implementing our suggested methodology have been developed to better describe the chemical space of the antimalarial drug Tafenoquine and Dacomitinib, a second-generation tyrosine kinase inhibitor for non-small-cell lung cancer treatment. The assessment driven by a better chemical space exploration of these two families have led to the rational synthesis of seven antimalarial analogs and eight kinase inhibitors which have shown interesting inhibitory activities. Our results evince that the application of cheminformatics for library selection may improve the ability to better inspect chemical datasets in order to identify new potential hits and represent large libraries for further reprofiling purposes

Tesis Doctorals en Xarxa