Abstract

El dataset contiene 5536 compuestos moleculares representados por su código SMILES y 1360 descriptores moleculares calculados con Mordred. Además, contiene las respectivas etiquetas para cada compuesto (1: mutagénico / 0: no mutagénico) para cada una de las cinco cepas (TA98, TA100, TA102, TA1535, TA1537) y una etiqueta general (Overall) que corresponde a la etiqueta de consenso utilizada para evaluar la predicción final del test de Ames. Los compuestos fueron compilados originalmente por el Istituto Superiore di Sanita’ (https://www.iss.it/isstox) y son el resultado de una etapa de preprocesamiento exhaustiva, que consta de diferentes pasos de filtrado, limpieza y canonicalización. The dataset contains 5,536 molecular compounds represented by their SMILES code and 1,360 molecular descriptors calculated with Mordred. Moreover, it contains the respective labels for each compound (1: mutagenic / 0: non-mutagenic) for each of the five strains (TA98, TA100, TA102, TA1535, TA1537) and a general label (Overall) that corresponds to the ground-truth consensus label used for evaluating the final Ames mutagenicity prediction. The compounds listed were originally compiled by the Istituto Superiore di Sanita’ (https://www.iss.it/isstox) and result from an exhaustive pre-processing stage, consisting of different filtering, sanitization, and canonicalization steps.Fil: Martínez, María Jimena. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Tandil. Instituto Superior de Ingeniería del Software. Universidad Nacional del Centro de la Provincia de Buenos Aires. Instituto Superior de Ingeniería del Software; ArgentinaFil: Sabando, María Virginia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; ArgentinaFil: Roca Magadán, Carlos. Consejo Superior de Investigaciones Científicas. Centro de Investigaciones Biológicas Margarita Salas; EspañaFil: Requena Triguero, Carlos. Consejo Superior de Investigaciones Científicas. Centro de Investigaciones Biológicas Margarita Salas; EspañaFil: Campillo Martín, Nuria Eugenia. Consejo Superior de Investigaciones Científicas. Centro de Investigaciones Biológicas Margarita Salas; EspañaFil: Páez, Juan A.. Consejo Superior de Investigaciones Científicas. Instituto de Química Médica; EspañaFil: Ponzoni, Ignacio. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentin

    Similar works

    Full text

    thumbnail-image

    Available Versions