150 research outputs found
Aprendizaje supervisado mediante random forests
Muchos problemas de la vida real pueden modelarse como problemas de clasificación, tales como la detección temprana de enfermedades o la concesión de crédito a un cierto individuo. La Clasificación Supervisada se encarga de este tipo de problemas: aprende de una muestra con el objetivo final de inferir observaciones futuras. Hoy en día, existe una amplia gama de técnicas de Clasificación Supervisada. En este trabajo nos centramos en los bosques aleatorios (Random Forests). El Random Forests es una técnica de clasificación que consiste en construir una colección de árboles de decisión individuales sobre los cuales se aplica aleatoriedad de cierta manera. Es conocido que esta técnica proporciona un buen rendimiento, incluso cuando trata con problemas de gran escala como los que se tienen en la actualidad. Sin embargo, existe una pequeña brecha entre la teoría relacionada con esta técnica y la experiencia empírica de la misma. El Random Forests también es útil en otros campos del Aprendizaje Automático: da medidas de importancia de las variables, que podrían utilizarse en la Selección de Atributos, y una matriz de proximidades entre las observaciones, lo que permite al analista detectar valores atípicos, reemplazar valores perdidos, buscar prototipos y obtener una visualización comprensible de los datos. Estas últimas propiedades hacen que el Random Forests sea una técnica aún más atractiva. En este trabajo se hace, en primer lugar, una breve descripción de la Clasificación Supervisada, incluyendo las principales técnicas de validación y los criterios de rendimiento más relevantes. En segundo lugar, se explica en detalle la construcción de un árbol de clasificación. Seguidamente, se presenta el Random Forests y se revisan las propiedades principales del mismo. Por último, se muestran resultados experimentales en R.Universidad de Sevilla. Máster Universitario en Matemática
Enhancing Classification and Regression Tree-Based Models by means of Mathematical Optimization
This PhD dissertation bridges the disciplines of Operations Research and Machine Learning by
developing novel Mathematical Optimization formulations and numerical solution approaches
to build classification and regression tree-based models.
Contrary to classic classification and regression trees, built in a greedy heuristic manner,
formulating the design of the tree model as an optimization problem allows us to easily include,
either as hard or soft constraints, desirable global structural properties. In this PhD dissertation,
we illustrate this flexibility to model: sparsity, as a proxy for interpretability, by controlling the
number of non-zero coefficients, the number of predictor variables and, in the case of functional
ones, the proportion of the domain used for prediction; an important social criterion, the
fairness of the model, which aims to avoid predictions that discriminate against race, or other
sensitive features; and the cost-sensitivity for groups at risk, by ensuring an acceptable accuracy
performance for them. Moreover, we provide in a natural way the impact that continuous
predictor variables have on each individual prediction, thus enhancing the local explainability
of tree models.
All the approaches proposed in this thesis are formulated through Continuous Optimization
problems that are scalable with respect to the size of the training sample, are studied theoretically,
are tested in real data sets and are competitive in terms of prediction accuracy against
benchmarks. This, together with the good properties summarized above, is illustrated through
the different chapters of this thesis.
This PhD dissertation is organized as follows. The state of the art in the field of (optimal)
decision trees is fully discussed in Chapter 1, while the next four chapters state our methodology.
Chapter 2 introduces in detail the general framework that threads the chapters in this thesis:
a randomized tree with oblique cuts. Particularly, we present our proposal to deal with classification
problems, which naturally provides probabilistic output on class membership tailored
to each individual, in contrast to the most popular existing approaches, where all individuals
in the same leaf node are assigned the same probability. Preferences on classification rates in
critical classes are successfully handled through cost-sensitive constraints.
Chapter 3 extends the methodology for classification in Chapter 2 to additionally handle
sparsity. This is modeled by means of regularizations with polyhedral norms added to the objective function. The sparsest tree case is theoretically studied. Our ability to easily trade in
some of our classification accuracy for a gain in sparsity is shown.
In Chapter 4, the findings obtained in Chapters 2 and 3 are adapted to construct sparse
trees for regression. Theoretical properties of the solutions are explored. The scalability of our
approach with respect to the size of the training sample, as well as local explanations on the
continuous predictor variables, are illustrated. Moreover, we show how this methodology can
avoid the discrimination of sensitive groups through fairness constraints.
Chapter 5 extends the methodology for regression in Chapter 4 to consider functional predictor
variables instead. Simultaneously, the detection of a reduced number of intervals that
are critical for prediction is performed. The sparsity in the proportion of the domain of the
functional predictor variables to be used is also modeled through a regularization term added
to the objective function. The obtained trade off between accuracy and sparsity is illustrated.
Finally, Chapter 6 closes the thesis with general conclusions and future lines of research.Esta tesis combina las disciplinas de Investigación Operativa y Aprendizaje Automático a
través del desarrollo de formulaciones de Optimización Matemática y algoritmos de resolución
numérica para construir modelos basados en árboles de clasificación y regresión.
A diferencia de los árboles de clasificación y regresión clásicos, generados de manera
heurística y voraz, construir un árbol a través de un problema de optimización nos permite
incluir fácilmente propiedades estructurales globales deseables. En esta tesis, ilustramos esta
flexibilidad para modelar los siguientes aspectos: sparsity, como sinónimo de interpretabilidad,
controlando el número de coeficientes no nulos, el número de variables predictoras y, si son
funcionales, la proporción de dominio usado en la predicción; un criterio social importante,
la equidad del modelo, evitando predicciones que discriminen a algunos individuos por su etnia
u otras características sensibles; y la sensibilidad al coste de grupos de riesgo, asegurando
un rendimiento aceptable para ellos. Además, con este enfoque se obtiene de manera natural
el impacto que las variables predictoras continuas tienen en la predicción de cada individuo,
mejorando así la explicabilidad local de los modelos de clasificación y regresión basados en
árboles.
Todos los enfoques propuestos en esta tesis se formulan a través de problemas de Optimización
Continua que son escalables con respecto al tamaño de la muestra de entrenamiento,
se estudian desde el punto de vista teórico, se evalúan en conjuntos de datos reales y son competitivos
frente a los procedimientos habituales. Esto, junto a las buenas propiedades resumidas
en el párrafo anterior, se ilustra a lo largo de los diferentes capítulos de esta tesis.
La tesis se estructura de la siguiente manera. El estado del arte sobre árboles de decisión
(óptimos) se discute ampliamente en el Capítulo 1, mientras que los cuatro capítulos siguientes
exponen nuestra metodología.
El Capítulo 2 introduce de forma detallada el marco general que hila los capítulos de esta
tesis: un árbol aleatorizado con cortes oblicuos. En particular, presentamos nuestra propuesta
para tratar problemas de clasificación, la cual construye la probabilidad de pertenencia a cada
clase ajustada a cada individuo, a diferencia de las técnicas más populares existentes, en las que
a todos los individuos en el mismo nodo hoja se les asigna la misma probabilidad. Se tratan
con éxito preferencias en las tasas de clasificación en clases críticas mediante restricciones de
sensibilidad al coste. El Capítulo 3 extiende la metodología de clasificación del Capítulo 2 para tratar adicionalmente
sparsity. Esto se modela mediante regularizaciones con normas poliédricas que se
añaden a la función objetivo. Se estudian propiedades teóricas del árbol más sparse, y se
demuestra nuestra habilidad para sacrificar un poco de precisión en la clasificación por una
ganancia en sparsity.
En el Capítulo 4, los resultados obtenidos en los Capítulos 2 y 3 se adaptan para construir
árboles sparse para regresión. Se exploran propiedades teóricas de las soluciones. Los experimentos
numéricos demuestran la escalabilidad de nuestro enfoque con respecto al tamaño
de la muestra de entrenamiento, y se ilustra cómo se generan las explicaciones locales en las
variables predictoras continuas. Además, mostramos cómo esta metodología puede reducir la
discriminación de grupos sensibles a través de las denominadas restricciones de justicia.
El Capítulo 5 extiende la metodología de regresión del Capítulo 4 para considerar variables
predictoras funcionales. De manera simultánea, la detección de un número reducido de intervalos
que son críticos para la predicción es abordada. La sparsity en la proporción de dominio
de las variables predictoras funcionales a usar se modela también a través de un término de
regularización añadido a la función objetivo. De esta forma, se ilustra el equilibrio obtenido
entre la precisión de predicción y la sparsity en este marco.
Por último, el Capítulo 6 cierra la tesis con conclusiones generales y líneas futuras de
investigación
Alumnado con Trastorno Mental Grave: análisis de la atención educativa recibida en la Comunidad de Madrid
Los alumnos con Trastorno Mental Grave (TMG) conforman un grupo poblacional
heterogéneo, pero con características similares tanto desde el impacto que la enfermedad tiene sobre su
recorrido académico como de la atención educativa que deberían recibir. En este sentido entendemos que
es importante cuestionar el tipo de intervención educativa que se realiza con esta población en el ámbito
de la Comunidad de Madrid, ya que cuando el menor tiene un TMG las dificultades para mantener en
condiciones óptimas sus estudios son mayores. Esto se debe a que la atención terapéutica intensiva que
tienen que recibir junto a la sintomatología propia del trastorno mental dificultan enormemente su
permanencia y asistencia al centro educativo. El objetivo que nos planteamos para esta investigación es
analizar la atención educativa que recibe el alumnado con TMG en la Comunidad de Madrid, focalizando
la atención en las prácticas pedagógicas que se utilizan y en el papel del profesorado como agente
fundamental de la intervención educativa. Para ello nos hemos servido de entrevistas en profundidad y
cuestionario de actitudes para indagar en nuestro tema de investigación a través de la visión especializada
de los profesores y profesoras que realizan su práctica docente en los Centros Educativos Terapéuticos de
la Comunidad de Madrid. Los resultados que obtenemos cuestionan la atención educativa que recibe el
alumnado con TMG y hablan de la falta de recursos humanos y de la falta de formación específica del
profesorado. Por otro lado encontramos significación estadística (p 0,02<0,05) entre la puesta en marcha
de prácticas educativas inclusivas y el rol del profesor
El meta-análisis: un proyecto de revisión literaria cuantitativa de los resultados del tratamiento de la psicopatía en la investigación
Estudio de calibración para la optimización de los procesos logísticos portuarios de los accesos de buques y trenes con mercancía contenerizada
Universidad de Sevilla. Grado en Ingeniería de las Tecnologías Industriale
The importance of the game in educational innovation: preliminary study: time and quality of the game
Las prácticas educativas innovadoras han cambiado la concepción de la escuela en muchos aspectos, entre ellos, el papel del juego, el cual cuenta con una mayor importancia y espacio dedicado a él, ya que este, según múltiples autores, sociólogos, psicólogos, pedagogos… de distintas épocas coinciden en que es fundamental para el desarrollo globalizado de las personas, sobre todo en la etapa de la infancia. La innovación educativa tiene una relación estrecha con la experiencia personal y con la actividad lúdica, favoreciendo así el conocimiento y que este se enriquezca con dicha experiencia, la cual no solo importa la cantidad de estas, sino la calidad, siendo esencial e indispensable en la vida cotidiana del niño, favoreciendo el aprendizaje significativo y relevante. El juego, cuyo nombre proviene del latín ‘ludus’ que al mismo tiempo hacía referencia a la diversión infantil juego y escuela, a día de hoy cuenta con una gran multitud de definiciones
Regulación de la expresión génica en cultivos primarios de hepatocitos fetales de rata bajo condiciones proliferativas y no proliferativas
Los hepatocitos fetales de 20 días cultivados a baja densidad celular proliferan en respuesta al EGF y al suero fetal produciéndose un aumento en la síntesis de DNA y la proporción de células en fase S del ciclo celular. Asímismo los hepatocitos fetales cultivados a alta densidad celular, son capaces de expresar precozmente genes característicos del estadío adulto como la PEPCK y la EM en respuesta a estímulos hormonales específicos. En este sentido, la expresión del RNAm de la PEPCK en los hepatocitos fetales puede inducirse a corto plazo en presencia de IBMX y forscolina, y a largo plazo, por la combinación de glucagón y dexametasona. Por su parte la insulina inhibe ligeramente dicha inducción. El cultivo de los hepatocitos en presencia de T3, insulina y dexametasona en un medio suplementado con glucosa 5 mM, produce la expresión precoz del RNAm de la.
Problemas de localización competitiva. El modelo de Huff
The ability of a firm to produce goods and/or services and market them effectively depends largely on the location of its facilities. Location theory deals with the modelling, formulation and solution of mathematical
problems related to sitting facilities in a given space. In this text, we focus on competitive location models. The root of competitive location models is Hotelling’s seminal article ‘Stability in Competition’ in 1929. Frank
Plastria defines a location model as competitive “ when it explicitly incorporates the fact that other facilities are already - or will be - present in the market and that the new facility or facilities will have to compete with them for its or their market share". This work starts with a short introduction to competitive location models, including a brief description of the elements of these models. Next, we address Huff’s model in the continuous space, exposing two different techniques to solve this problem, the generalized Weiszfeld algorithm and a standard branch and bound algorithm. Then,
we develop a discrete competitive location model. Resolution methods are described. Computational experiments are reported both for the continuous and the discrete model. The remainder of the text contains the codes of R and AMPL used for solving the posed problems.Universidad de Sevilla. Grado en Matemática
- …