4 research outputs found
K-means cluster analysis of the West African species of cereals based on nutritional value composition
The K-means algorithm was deployed to extract clusters within the prevalent cereal foods in West Africa. The West Africa Food Composition Table (WAFCT) presents all the 76 food sources in the cereals class as a single group without considering the similarity or dissimilarity in nutritional values. Using K-means clustering, the Euclidean distance between nutritional values of all cereal food items were measured to generate six sub- groups based on similarity. A one-way analysis to validate the results of the extracted clusters was carried out using the mean square values. For every nutrient, the “within groups” and “between groups” values of the mean squares were examined. This was done to ascertain how similar or dissimilar data points in the same or different clusters were to each other. It was discovered that the P values for all “between groups” and “within groups” mean squares for every nutrient was P < 0.01. Additionally, it was observed that in all cases, the mean square values of the “within groups” were significantly lower than those of the “between groups”. These outcomes are indications that clustering was properly done such that the variability in nutrient values for all food sources within the same clusters was significantly low, while those in different clusters were significantlyhigh. Thus, the ultimate objective of clustering, which is to maximize intra-cluster similarity and minimize inter-cluster similarity was effectively achieved. Cluster analysis in this study showed that all food items within a particular cluster are similar to each other and dissimilar to food items in a different cluster. These findings are valuable in dietaries, food labeling, raw materials selection, public health nutrition, and food science research, when answering questions on the choice of alternative food items. Where original choices are not available or unaffordable, the clusters can be explored to select other similar options within the same cluster as the original choice. 
Spectral clustering and fuzzy similarity measure for images segmentation
In image segmentation algorithms using spectral clustering, due to the size of the images, the computational load for the construction of the similarity matrix and the solution to the eigenvalue problem for the Laplacian matrix is high. Furthermore, the Gaussian kernel similarity measure is the most used, but it presents problems with irregular data distributions. This work proposes to perform a pre-segmentation or decimation by superpixels with the Simple Linear Iterative Clustering algorithm to reduce the computational cost, and to build the similarity matrix with a fuzzy measure based on the Fuzzy C-Means classifier, providing the algorithm a greater robustness against images with complex distributions and by spectral clustering the final segmentation is determined. Experimentally, it was found that the proposed approach obtains adequate segmentations, good clustering results and a comparable precision with respect to five algorithms; measuring performance under four determined validation metrics.En los algoritmos de segmentaciĂłn de imágenes mediante agrupamiento espectral, debido al tamaño de las imágenes, la carga computacional para la construcciĂłn de la matriz de similitud y la soluciĂłn al problema de valores propios para la matriz laplaciana son altos. Además, la medida de similitud más utilizada es el kernel gaussiano, el cual presenta problemas con distribuciones de datos irregulares. Este trabajo propone realizar una presegmentaciĂłn o diezmado mediante superpĂxeles con el algoritmo Simple Linear Iterative Clustering, para disminuir el costo computacional y construir la matriz de similaridad con una medida difusa basada en el clasificador Fuzzy C-Means, que proporciona al algoritmo una mayor robustez frente a imágenes con distribuciones complejas; mediante agrupamiento espectral se determina la segmentaciĂłn final. Experimentalmente, se comprobĂł que el enfoque propuesto obtiene segmentaciones adecuadas, buenos resultados de agrupamiento y una precisiĂłn comparable respecto a cinco algoritmos, midiendo el desempeño bajo cuatro mĂ©tricas de validaciĂłn
Exploring Molecular Diversity: There is Plenty of Room at Markush's
L'estratègia de les etapes inicials del descobriment de fĂ rmacs estĂ normalment basada en un procĂ©s anomenat hit-to-lead que implica un extens estudi entorn de la sĂntesi de derivats d'una molècula original que prèviament hagi mostrat certa activitat biològica davant d'una diana concreta. Per tant, aquest procĂ©s comporta la sĂntesi de molts anĂ legs que descriurien una subquimioteca, que generalment evidencia que aquests estudis estan molt focalitzats al voltant de l'espai quĂmic del compost original. AixĂ i tot, quan aquesta molècula Ă©s finalment patentada, es descriu un espai quĂmic molt mĂ©s vast per mitjĂ d'estructures Markush donant per suposat que alguns dels seus derivats puguin presentar tambĂ© activitat biològica. Tot i això, la presència d'aquestes estructures no implica la sĂntesi comprovada de tota la biblioteca molecular sinĂł nomĂ©s una petita mostra de la mateixa.
La nostra hipòtesi Ă©s que hi ha una gran part de l’espai quĂmic d’aquestes biblioteques que estĂ sense explorar i pot amagar possibles candidats que poden fins i tot superar l’activitat del hit original. A travĂ©s d'aquest projecte, es proposa una alternativa que sostĂ© que una selecciĂł racional de poques molècules – basat en l'agrupament segons semblança molecular – pot representar de manera mĂ©s significativa l'espai quĂmic establert, oferint la possibilitat d'explorar regions desconegudes que podrien amagar mĂ©s potencial biològic.
DesprĂ©s de revisar els darrers fĂ rmacs aprovats per la FDA en el perĂode del 2008 al 2020 i la base de dades de molècules bioactives de ChEMBL, s'ha dut a terme una exploraciĂł de l'ampli espai quĂmic resultant de molècules petites amb propietats similars a les dels medicaments per definir nous espais accessibles que podrien ocultar activitat. Els resultats obtinguts de set casos d'estudis reals han demostrat que tant la selecciĂł racional com l’aleatòria representen mĂ©s significativament les biblioteques combinatòries declarades a les patents, que les molècules descrites fins ara.
S'han realitzat dos estudis prĂ ctics que implementen aquesta metodologia suggerida per descriure millor l'espai quĂmic del fĂ rmac antipalĂşdic Tafenoquina i del Dacomitinib, un inhibidor de tirosina cinases de segona generaciĂł per al tractament del cĂ ncer de pulmĂł de cèl·lules no petites. L’exploraciĂł de l’espai quĂmic d’aquestes dues famĂlies ha portat a la sĂntesi racional de set anĂ legs antipalĂşdics i vuit inhibidors de cinases que han mostrat interessants activitats inhibidores.
Aquests resultats demostren que l'aplicaciĂł de la quimioinformĂ tica per a la selecciĂł de biblioteques pot millorar la capacitat d'inspeccionar millor els conjunts de dades quĂmiques per identificar nous compostos precandidats i representar grans biblioteques per a posteriors campanyes de reposicionament.La estrategia de las etapas iniciales del descubrimiento de fármacos está normalmente basada en un proceso denominado hit-to-lead que implica un extenso estudio entorno a la sĂntesis de derivados de una molĂ©cula original que previamente haya expresado cierta actividad biolĂłgica frente a una diana concreta. Por ende, este proceso conlleva la sĂntesis de muchos análogos que describirĂan una sublibrerĂa quĂmica, la cual generalmente evidencia que estos estudios están muy focalizados alrededor del espacio quĂmico del compuesto original. AĂşn y asĂ, cuando esta molĂ©cula es finalmente patentada, se describe un espacio quĂmico mucho más vasto por medio de estructuras Markush teorizando que algunos de sus derivados puedan presentar tambiĂ©n actividad biolĂłgica. Sin embargo, la presencia de estas estructuras no implica la sĂntesis comprobada de toda la biblioteca molecular sino solo una pequeña muestra de la misma.
Nuestra hipĂłtesis es que hay una gran parte del espacio quĂmico de estas bibliotecas que está sin explorar y puede ocultar posibles candidatos que pueden hasta superar la actividad del hit original. A travĂ©s de este proyecto, se propone una alternativa que sostiene que una selecciĂłn racional de pocas molĂ©culas – fundada en el agrupamiento segĂşn su similitud quĂmica – puede representar de manera más significativa el espacio quĂmico establecido, ofreciendo la posibilidad de explorar regiones desconocidas que podrĂan ocultar más potencial biolĂłgico.
DespuĂ©s de revisar los Ăşltimos fármacos aprobados por la FDA en el perĂodo de 2008 a 2020 y la base de datos de molĂ©culas bioactivas de ChEMBL, se ha llevado a cabo una exploraciĂłn del amplio espacio quĂmico resultante de molĂ©culas pequeñas con propiedades similares a las de los medicamentos para definir nuevos espacios accesible que podrĂan ocultar actividad. Los resultados obtenidos de siete casos de estudios reales han demostrado que tanto la selecciĂłn racional como la aleatoria representan más significativamente las bibliotecas combinatorias declaradas en las patentes que las molĂ©culas descritas hasta la fecha.
Se han desarrollado dos estudios prácticos que implementan esta metodologĂa sugerida para describir mejor el espacio quĂmico del fármaco antipalĂşdico Tafenoquina y Dacomitinib, un inhibidor de la tirosina quinasa de segunda generaciĂłn para el tratamiento del cáncer de pulmĂłn de cĂ©lulas no pequeñas. La exploraciĂłn del espacio quĂmico de estas dos familias ha llevado a la sĂntesis racional de siete análogos antipalĂşdicos y ocho inhibidores de quinasas que han mostrado interesantes actividades inhibidoras.
Estos resultados demuestran que la aplicaciĂłn de la quimioinformática para la selecciĂłn de bibliotecas puede mejorar la capacidad de inspeccionar mejor los conjuntos de datos quĂmicos para identificar nuevos potenciales hits y representar grandes bibliotecas para fines de reposicionamiento.The early Drug Discovery strategy is commonly based on a hit-to-lead process which involves large research on the synthesis of derivatives of an original molecule that had previously shown biological activity against a specific biological target. Therefore, this process implies the synthesis of many analogs leading to the description of a chemical sub-library which generally leads to a highly focused study on the chemical space nearby the hit compound. However, when this drug is finally patented, a wider chemical space derived from a Markush structure is described, theorizing that some analogs within may present biological activity. Nevertheless, this claim involving the Markush structure does not imply the proven synthesis of all the chemical library but just a small population of it.
We hypothesize that there is a great part of the chemical space of these libraries that is unexplored and can hide potential lead candidates which may even surpass the activity of the original hit. Through this project, an alternative is proposed claiming that a rational selection of a short sample of small molecules – founded on similarity-based clustering – can represent more significatively the stated chemical space offering the possibility to explore the unknown space that could hide more potential biological activity.
After a review on the latest approved drugs by the FDA in the period from 2008 to 2020 and the ChEMBL database of bioactive molecules, an exploration of the resulting wide chemical space of small molecules with drug-like properties has been assessed in order to define accessible spots that might hide biological activity. The obtained results from seven real cases of study have proven that random and rationally selected molecules represent more significantly the combinatorial libraries stated in the patents rather than the reported molecules until date.
Furthermore, two practical studies implementing our suggested methodology have been developed to better describe the chemical space of the antimalarial drug Tafenoquine and Dacomitinib, a second-generation tyrosine kinase inhibitor for non-small-cell lung cancer treatment. The assessment driven by a better chemical space exploration of these two families have led to the rational synthesis of seven antimalarial analogs and eight kinase inhibitors which have shown interesting inhibitory activities.
Our results evince that the application of cheminformatics for library selection may improve the ability to better inspect chemical datasets in order to identify new potential hits and represent large libraries for further reprofiling purposes