6,994 research outputs found

    Hybrid CNN+LSTM for face recognition in videos

    Get PDF
    El reconocimiento de caras, junto con la identificación de las acciones y gestos humanos, es en la actualidad una de las aplicaciones informáticas, más exitosas de análisis automatizado del comportamiento humano. Durante los últimos diez años aproximadamente, se ha convertido en un área muy popular de la investigación en computer vision y ha recibido mucha atención por parte de las organizaciones internacionales (Thumos, ChaLearn, etc). [1] El sistema de reconocimiento facial es una aplicación creada para identificar o verificar una persona a partir de una imagen digital o un fotograma de vídeo. Estos, Verificación e identificación son dos problemas muy distintos en el reconocimiento de los rostros. Los sistemas de verificación tratan de responder a la pregunta “¿Es esta persona la que dice de ser?” En este sistema, un individuo se presenta a sí mismo como una persona específica, y el problema de verificación se describe generalmente como un mapeo 1-a-1, donde el sistema intenta comparar la presencia de un individuo contra una información específica del mismo individuo ya presente en el sistema. Un sistema de identificación, por otro lado, tratan de responder a la pregunta “Quién es esta persona?”, Y su objetivo es identificar a una persona desconocida, comparando la información individual con la que ya están en el sistema de todos los demás. En otras palabras: la identificación es un problema de clasificación múltiple descrito como un mapeo 1-a-n (donde n es el número total de individuos en el sistema), mientras la verificación, es una tarea de clasificación binaria con par de ejemplos. En este proyecto se aborda el problema de la identificación facial mediante técnicas de aprendizaje profundo. El aprendizaje profundo es un área de estudio del aprendizaje automático, estrictamente relacionado con las redes neuronales artificiales, cuya aproximación al problema consiste en aprender representaciones de alto nivel de los datos mediante la parametrización de múltiples capas de procesamiento no lineal. Estas técnicas permiten la extracción automática de características en escenarios supervisados y no supervisados tanto para tareas de clasificación como de regresión [29] [?]. Diferentes arquitecturas de aprendizaje profundo han sido utilizadas con éxito en el reconocimiento de rostros [19, 26, 33, 50], en el reconocimiento de expresiones faciales [24, 53] y en la detección des las emociones [21, 23, 34]. Al igual que en muchas otras tareas de visión artificial, los datos de entrada para el reconocimiento facial pueden ser muy diferentes, incluyendo imágenes, vídeos, mapas de profundidad [49] [30], imágenes térmicas [48] [37], modelos 3D de la cara [5], entre otros. Por supuesto, el tipo de datos de entrada plantea diferentes limitaciones y oportunidades a nivel de modelación. En el caso en que los datos de entrada son videos, parece natural que la información temporal deba ser explotado para realizar tareas de reconocimiento. De hecho, trabajos recientes con- firman las ventajas de utilizar modelos temporales como Redes Neuronales Recurrentes (RNN) o Long-Short Term Memory (LSTM) para problemas de análisis de caras humanas, como la detección y seguimiento de los rostros [52], el reconocimiento de la expresión facial [3] y el reconocimiento de emociones [11] [7]. Sin embargo, después de una revisión exhaustiva de las fuentes bibliográficas, llegamos a la conclusión que muy pocos trabajos han abordado el problema del reconocimiento facial usando modelos neuronales temporales, y ninguno de ellos se ha ocupado de reconocimiento de caras en los videos. En nuestra opinión, esto representa una oportunidad interesante de investigación con espacio para contribuciones originales. En esta tesis, se propone de abordar el problema de diseñar modelos de aprendizaje profundos adaptados para explotar la información temporal contenida en los videos, para el reconocimiento de rostros. En concreto, nos proponemos estudiar una arquitectura basada en la CNN-LSTM, utilizada con éxito para otras tareas de análisis de vídeo como el reconocimiento y la descripción de objetos (image captioning) [10] [46], análisis de sentimiento [47] y clasificación del texto [54], y comparar los resultados obtenidos con otros métodos de reconocimiento facial en estado del arte [16] [50] [42] [6]. Este trabajo se organiza en diferentes etapas. En primer lugar, se llevará a cabo una revisión exhaustiva de los trabajos más recientes en el campo de computer vision en relación con los modelos de aprendizaje profundo, para el reconocimiento de caras en videos. En segundo lugar, queremos realizar un análisis preciso de los métodos más recientes y eficaces, junto con el estudio de los resultados observados hasta la fecha. Una vez reunida la información necesaria para estar informado sobre el estado de la arte, el siguiente paso importante será la definición de las arquitecturas implicadas, Red Neuronal Convolutivas y Long-Short Term Memory, junto con la elección de las bases de datos a utilizar para la validación experimental. La disponibilidad de datos para el reconocimiento facial en videos es grande. La más utilizada (y también la más difícil) es sin ninguna duda la colección Youtube Face (YTF). Sin embargo, en este trabajo se propone también construir una nueva base de datos a partir de la conocida Motion of Body database (MoBo). La colección MoBo DB está destinada a ser utilizada en tareas de detección y reconocimiento de movimientos. Por lo tanto, las imágenes de las que se compone son fotos de cuerpo entero de varios temas. En nuestro proyecto aplicamos técnicas de procesamiento de imágenes para detectar el rostro, recortar la región de la cara y almacenar la imagen resultante en un formato adecuado. La nueva base de datos sería una contribución adicional importante de este trabajo. Al diseño de la arquitectura y la elección de las bases de datos seguirá la aplicación y un conjunto de experimentos

    A Deep Pyramid Deformable Part Model for Face Detection

    Full text link
    We present a face detection algorithm based on Deformable Part Models and deep pyramidal features. The proposed method called DP2MFD is able to detect faces of various sizes and poses in unconstrained conditions. It reduces the gap in training and testing of DPM on deep features by adding a normalization layer to the deep convolutional neural network (CNN). Extensive experiments on four publicly available unconstrained face detection datasets show that our method is able to capture the meaningful structure of faces and performs significantly better than many competitive face detection algorithms

    Delivering ‘Effortless Experience’ Across Borders: Managing Internal Consistency in Professional Service Firms

    Get PDF
    This article explores how professional service firms manage across borders. When clients require consistent services delivered across multiple locations, especially across borders, then firms need to develop an organization that is sufficiently flexible to be able to support such consistent service delivery. Our discussion is illustrated by the globalization process of law firms. We argue that the globalization of large corporate law firms primarily takes place in terms of investments in the development of protocols, processes and practices that enhance internal consistency such that clients receive an ‘effortless experience’ of the service across multiple locations worldwide. Over the longer term the ability to deliver such effortless experience is dependent upon meaningful integration within and across the firm. Firms that achieve this are building a source of sustainable competitive advantage

    THREE ESSAYS ON BEHAVIORAL ADAPTABILITY IN THE LEADERSHIP CONTEXT

    Get PDF

    Robust statistical frontalization of human and animal faces

    Get PDF
    The unconstrained acquisition of facial data in real-world conditions may result in face images with significant pose variations, illumination changes, and occlusions, affecting the performance of facial landmark localization and recognition methods. In this paper, a novel method, robust to pose, illumination variations, and occlusions is proposed for joint face frontalization and landmark localization. Unlike the state-of-the-art methods for landmark localization and pose correction, where large amount of manually annotated images or 3D facial models are required, the proposed method relies on a small set of frontal images only. By observing that the frontal facial image of both humans and animals, is the one having the minimum rank of all different poses, a model which is able to jointly recover the frontalized version of the face as well as the facial landmarks is devised. To this end, a suitable optimization problem is solved, concerning minimization of the nuclear norm (convex surrogate of the rank function) and the matrix ℓ1 norm accounting for occlusions. The proposed method is assessed in frontal view reconstruction of human and animal faces, landmark localization, pose-invariant face recognition, face verification in unconstrained conditions, and video inpainting by conducting experiment on 9 databases. The experimental results demonstrate the effectiveness of the proposed method in comparison to the state-of-the-art methods for the target problems
    corecore