150 research outputs found

    Aprendizaje supervisado mediante random forests

    Get PDF
    Muchos problemas de la vida real pueden modelarse como problemas de clasificación, tales como la detección temprana de enfermedades o la concesión de crédito a un cierto individuo. La Clasificación Supervisada se encarga de este tipo de problemas: aprende de una muestra con el objetivo final de inferir observaciones futuras. Hoy en día, existe una amplia gama de técnicas de Clasificación Supervisada. En este trabajo nos centramos en los bosques aleatorios (Random Forests). El Random Forests es una técnica de clasificación que consiste en construir una colección de árboles de decisión individuales sobre los cuales se aplica aleatoriedad de cierta manera. Es conocido que esta técnica proporciona un buen rendimiento, incluso cuando trata con problemas de gran escala como los que se tienen en la actualidad. Sin embargo, existe una pequeña brecha entre la teoría relacionada con esta técnica y la experiencia empírica de la misma. El Random Forests también es útil en otros campos del Aprendizaje Automático: da medidas de importancia de las variables, que podrían utilizarse en la Selección de Atributos, y una matriz de proximidades entre las observaciones, lo que permite al analista detectar valores atípicos, reemplazar valores perdidos, buscar prototipos y obtener una visualización comprensible de los datos. Estas últimas propiedades hacen que el Random Forests sea una técnica aún más atractiva. En este trabajo se hace, en primer lugar, una breve descripción de la Clasificación Supervisada, incluyendo las principales técnicas de validación y los criterios de rendimiento más relevantes. En segundo lugar, se explica en detalle la construcción de un árbol de clasificación. Seguidamente, se presenta el Random Forests y se revisan las propiedades principales del mismo. Por último, se muestran resultados experimentales en R.Universidad de Sevilla. Máster Universitario en Matemática

    Enhancing Classification and Regression Tree-Based Models by means of Mathematical Optimization

    Get PDF
    This PhD dissertation bridges the disciplines of Operations Research and Machine Learning by developing novel Mathematical Optimization formulations and numerical solution approaches to build classification and regression tree-based models. Contrary to classic classification and regression trees, built in a greedy heuristic manner, formulating the design of the tree model as an optimization problem allows us to easily include, either as hard or soft constraints, desirable global structural properties. In this PhD dissertation, we illustrate this flexibility to model: sparsity, as a proxy for interpretability, by controlling the number of non-zero coefficients, the number of predictor variables and, in the case of functional ones, the proportion of the domain used for prediction; an important social criterion, the fairness of the model, which aims to avoid predictions that discriminate against race, or other sensitive features; and the cost-sensitivity for groups at risk, by ensuring an acceptable accuracy performance for them. Moreover, we provide in a natural way the impact that continuous predictor variables have on each individual prediction, thus enhancing the local explainability of tree models. All the approaches proposed in this thesis are formulated through Continuous Optimization problems that are scalable with respect to the size of the training sample, are studied theoretically, are tested in real data sets and are competitive in terms of prediction accuracy against benchmarks. This, together with the good properties summarized above, is illustrated through the different chapters of this thesis. This PhD dissertation is organized as follows. The state of the art in the field of (optimal) decision trees is fully discussed in Chapter 1, while the next four chapters state our methodology. Chapter 2 introduces in detail the general framework that threads the chapters in this thesis: a randomized tree with oblique cuts. Particularly, we present our proposal to deal with classification problems, which naturally provides probabilistic output on class membership tailored to each individual, in contrast to the most popular existing approaches, where all individuals in the same leaf node are assigned the same probability. Preferences on classification rates in critical classes are successfully handled through cost-sensitive constraints. Chapter 3 extends the methodology for classification in Chapter 2 to additionally handle sparsity. This is modeled by means of regularizations with polyhedral norms added to the objective function. The sparsest tree case is theoretically studied. Our ability to easily trade in some of our classification accuracy for a gain in sparsity is shown. In Chapter 4, the findings obtained in Chapters 2 and 3 are adapted to construct sparse trees for regression. Theoretical properties of the solutions are explored. The scalability of our approach with respect to the size of the training sample, as well as local explanations on the continuous predictor variables, are illustrated. Moreover, we show how this methodology can avoid the discrimination of sensitive groups through fairness constraints. Chapter 5 extends the methodology for regression in Chapter 4 to consider functional predictor variables instead. Simultaneously, the detection of a reduced number of intervals that are critical for prediction is performed. The sparsity in the proportion of the domain of the functional predictor variables to be used is also modeled through a regularization term added to the objective function. The obtained trade off between accuracy and sparsity is illustrated. Finally, Chapter 6 closes the thesis with general conclusions and future lines of research.Esta tesis combina las disciplinas de Investigación Operativa y Aprendizaje Automático a través del desarrollo de formulaciones de Optimización Matemática y algoritmos de resolución numérica para construir modelos basados en árboles de clasificación y regresión. A diferencia de los árboles de clasificación y regresión clásicos, generados de manera heurística y voraz, construir un árbol a través de un problema de optimización nos permite incluir fácilmente propiedades estructurales globales deseables. En esta tesis, ilustramos esta flexibilidad para modelar los siguientes aspectos: sparsity, como sinónimo de interpretabilidad, controlando el número de coeficientes no nulos, el número de variables predictoras y, si son funcionales, la proporción de dominio usado en la predicción; un criterio social importante, la equidad del modelo, evitando predicciones que discriminen a algunos individuos por su etnia u otras características sensibles; y la sensibilidad al coste de grupos de riesgo, asegurando un rendimiento aceptable para ellos. Además, con este enfoque se obtiene de manera natural el impacto que las variables predictoras continuas tienen en la predicción de cada individuo, mejorando así la explicabilidad local de los modelos de clasificación y regresión basados en árboles. Todos los enfoques propuestos en esta tesis se formulan a través de problemas de Optimización Continua que son escalables con respecto al tamaño de la muestra de entrenamiento, se estudian desde el punto de vista teórico, se evalúan en conjuntos de datos reales y son competitivos frente a los procedimientos habituales. Esto, junto a las buenas propiedades resumidas en el párrafo anterior, se ilustra a lo largo de los diferentes capítulos de esta tesis. La tesis se estructura de la siguiente manera. El estado del arte sobre árboles de decisión (óptimos) se discute ampliamente en el Capítulo 1, mientras que los cuatro capítulos siguientes exponen nuestra metodología. El Capítulo 2 introduce de forma detallada el marco general que hila los capítulos de esta tesis: un árbol aleatorizado con cortes oblicuos. En particular, presentamos nuestra propuesta para tratar problemas de clasificación, la cual construye la probabilidad de pertenencia a cada clase ajustada a cada individuo, a diferencia de las técnicas más populares existentes, en las que a todos los individuos en el mismo nodo hoja se les asigna la misma probabilidad. Se tratan con éxito preferencias en las tasas de clasificación en clases críticas mediante restricciones de sensibilidad al coste. El Capítulo 3 extiende la metodología de clasificación del Capítulo 2 para tratar adicionalmente sparsity. Esto se modela mediante regularizaciones con normas poliédricas que se añaden a la función objetivo. Se estudian propiedades teóricas del árbol más sparse, y se demuestra nuestra habilidad para sacrificar un poco de precisión en la clasificación por una ganancia en sparsity. En el Capítulo 4, los resultados obtenidos en los Capítulos 2 y 3 se adaptan para construir árboles sparse para regresión. Se exploran propiedades teóricas de las soluciones. Los experimentos numéricos demuestran la escalabilidad de nuestro enfoque con respecto al tamaño de la muestra de entrenamiento, y se ilustra cómo se generan las explicaciones locales en las variables predictoras continuas. Además, mostramos cómo esta metodología puede reducir la discriminación de grupos sensibles a través de las denominadas restricciones de justicia. El Capítulo 5 extiende la metodología de regresión del Capítulo 4 para considerar variables predictoras funcionales. De manera simultánea, la detección de un número reducido de intervalos que son críticos para la predicción es abordada. La sparsity en la proporción de dominio de las variables predictoras funcionales a usar se modela también a través de un término de regularización añadido a la función objetivo. De esta forma, se ilustra el equilibrio obtenido entre la precisión de predicción y la sparsity en este marco. Por último, el Capítulo 6 cierra la tesis con conclusiones generales y líneas futuras de investigación

    Alumnado con Trastorno Mental Grave: análisis de la atención educativa recibida en la Comunidad de Madrid

    Get PDF
    Los alumnos con Trastorno Mental Grave (TMG) conforman un grupo poblacional heterogéneo, pero con características similares tanto desde el impacto que la enfermedad tiene sobre su recorrido académico como de la atención educativa que deberían recibir. En este sentido entendemos que es importante cuestionar el tipo de intervención educativa que se realiza con esta población en el ámbito de la Comunidad de Madrid, ya que cuando el menor tiene un TMG las dificultades para mantener en condiciones óptimas sus estudios son mayores. Esto se debe a que la atención terapéutica intensiva que tienen que recibir junto a la sintomatología propia del trastorno mental dificultan enormemente su permanencia y asistencia al centro educativo. El objetivo que nos planteamos para esta investigación es analizar la atención educativa que recibe el alumnado con TMG en la Comunidad de Madrid, focalizando la atención en las prácticas pedagógicas que se utilizan y en el papel del profesorado como agente fundamental de la intervención educativa. Para ello nos hemos servido de entrevistas en profundidad y cuestionario de actitudes para indagar en nuestro tema de investigación a través de la visión especializada de los profesores y profesoras que realizan su práctica docente en los Centros Educativos Terapéuticos de la Comunidad de Madrid. Los resultados que obtenemos cuestionan la atención educativa que recibe el alumnado con TMG y hablan de la falta de recursos humanos y de la falta de formación específica del profesorado. Por otro lado encontramos significación estadística (p 0,02<0,05) entre la puesta en marcha de prácticas educativas inclusivas y el rol del profesor

    The importance of the game in educational innovation: preliminary study: time and quality of the game

    Get PDF
    Las prácticas educativas innovadoras han cambiado la concepción de la escuela en muchos aspectos, entre ellos, el papel del juego, el cual cuenta con una mayor importancia y espacio dedicado a él, ya que este, según múltiples autores, sociólogos, psicólogos, pedagogos… de distintas épocas coinciden en que es fundamental para el desarrollo globalizado de las personas, sobre todo en la etapa de la infancia. La innovación educativa tiene una relación estrecha con la experiencia personal y con la actividad lúdica, favoreciendo así el conocimiento y que este se enriquezca con dicha experiencia, la cual no solo importa la cantidad de estas, sino la calidad, siendo esencial e indispensable en la vida cotidiana del niño, favoreciendo el aprendizaje significativo y relevante. El juego, cuyo nombre proviene del latín ‘ludus’ que al mismo tiempo hacía referencia a la diversión infantil juego y escuela, a día de hoy cuenta con una gran multitud de definiciones

    Regulación de la expresión génica en cultivos primarios de hepatocitos fetales de rata bajo condiciones proliferativas y no proliferativas

    Get PDF
    Los hepatocitos fetales de 20 días cultivados a baja densidad celular proliferan en respuesta al EGF y al suero fetal produciéndose un aumento en la síntesis de DNA y la proporción de células en fase S del ciclo celular. Asímismo los hepatocitos fetales cultivados a alta densidad celular, son capaces de expresar precozmente genes característicos del estadío adulto como la PEPCK y la EM en respuesta a estímulos hormonales específicos. En este sentido, la expresión del RNAm de la PEPCK en los hepatocitos fetales puede inducirse a corto plazo en presencia de IBMX y forscolina, y a largo plazo, por la combinación de glucagón y dexametasona. Por su parte la insulina inhibe ligeramente dicha inducción. El cultivo de los hepatocitos en presencia de T3, insulina y dexametasona en un medio suplementado con glucosa 5 mM, produce la expresión precoz del RNAm de la.

    Problemas de localización competitiva. El modelo de Huff

    Get PDF
    The ability of a firm to produce goods and/or services and market them effectively depends largely on the location of its facilities. Location theory deals with the modelling, formulation and solution of mathematical problems related to sitting facilities in a given space. In this text, we focus on competitive location models. The root of competitive location models is Hotelling’s seminal article ‘Stability in Competition’ in 1929. Frank Plastria defines a location model as competitive “ when it explicitly incorporates the fact that other facilities are already - or will be - present in the market and that the new facility or facilities will have to compete with them for its or their market share". This work starts with a short introduction to competitive location models, including a brief description of the elements of these models. Next, we address Huff’s model in the continuous space, exposing two different techniques to solve this problem, the generalized Weiszfeld algorithm and a standard branch and bound algorithm. Then, we develop a discrete competitive location model. Resolution methods are described. Computational experiments are reported both for the continuous and the discrete model. The remainder of the text contains the codes of R and AMPL used for solving the posed problems.Universidad de Sevilla. Grado en Matemática
    corecore