427 research outputs found

    Taming Wild Faces: Web-Scale, Open-Universe Face Identification in Still and Video Imagery

    Get PDF
    With the increasing pervasiveness of digital cameras, the Internet, and social networking, there is a growing need to catalog and analyze large collections of photos and videos. In this dissertation, we explore unconstrained still-image and video-based face recognition in real-world scenarios, e.g. social photo sharing and movie trailers, where people of interest are recognized and all others are ignored. In such a scenario, we must obtain high precision in recognizing the known identities, while accurately rejecting those of no interest. Recent advancements in face recognition research has seen Sparse Representation-based Classification (SRC) advance to the forefront of competing methods. However, its drawbacks, slow speed and sensitivity to variations in pose, illumination, and occlusion, have hindered its wide-spread applicability. The contributions of this dissertation are three-fold: 1. For still-image data, we propose a novel Linearly Approximated Sparse Representation-based Classification (LASRC) algorithm that uses linear regression to perform sample selection for l1-minimization, thus harnessing the speed of least-squares and the robustness of SRC. On our large dataset collected from Facebook, LASRC performs equally to standard SRC with a speedup of 100-250x. 2. For video, applying the popular l1-minimization for face recognition on a frame-by-frame basis is prohibitively expensive computationally, so we propose a new algorithm Mean Sequence SRC (MSSRC) that performs video face recognition using a joint optimization leveraging all of the available video data and employing the knowledge that the face track frames belong to the same individual. Employing MSSRC results in a speedup of 5x on average over SRC on a frame-by-frame basis. 3. Finally, we make the observation that MSSRC sometimes assigns inconsistent identities to the same individual in a scene that could be corrected based on their visual similarity. Therefore, we construct a probabilistic affinity graph combining appearance and co-occurrence similarities to model the relationship between face tracks in a video. Using this relationship graph, we employ random walk analysis to propagate strong class predictions among similar face tracks, while dampening weak predictions. Our method results in a performance gain of 15.8% in average precision over using MSSRC alone

    Hybrid CNN+LSTM for face recognition in videos

    Get PDF
    El reconocimiento de caras, junto con la identificación de las acciones y gestos humanos, es en la actualidad una de las aplicaciones informáticas, más exitosas de análisis automatizado del comportamiento humano. Durante los últimos diez años aproximadamente, se ha convertido en un área muy popular de la investigación en computer vision y ha recibido mucha atención por parte de las organizaciones internacionales (Thumos, ChaLearn, etc). [1] El sistema de reconocimiento facial es una aplicación creada para identificar o verificar una persona a partir de una imagen digital o un fotograma de vídeo. Estos, Verificación e identificación son dos problemas muy distintos en el reconocimiento de los rostros. Los sistemas de verificación tratan de responder a la pregunta “¿Es esta persona la que dice de ser?” En este sistema, un individuo se presenta a sí mismo como una persona específica, y el problema de verificación se describe generalmente como un mapeo 1-a-1, donde el sistema intenta comparar la presencia de un individuo contra una información específica del mismo individuo ya presente en el sistema. Un sistema de identificación, por otro lado, tratan de responder a la pregunta “Quién es esta persona?”, Y su objetivo es identificar a una persona desconocida, comparando la información individual con la que ya están en el sistema de todos los demás. En otras palabras: la identificación es un problema de clasificación múltiple descrito como un mapeo 1-a-n (donde n es el número total de individuos en el sistema), mientras la verificación, es una tarea de clasificación binaria con par de ejemplos. En este proyecto se aborda el problema de la identificación facial mediante técnicas de aprendizaje profundo. El aprendizaje profundo es un área de estudio del aprendizaje automático, estrictamente relacionado con las redes neuronales artificiales, cuya aproximación al problema consiste en aprender representaciones de alto nivel de los datos mediante la parametrización de múltiples capas de procesamiento no lineal. Estas técnicas permiten la extracción automática de características en escenarios supervisados y no supervisados tanto para tareas de clasificación como de regresión [29] [?]. Diferentes arquitecturas de aprendizaje profundo han sido utilizadas con éxito en el reconocimiento de rostros [19, 26, 33, 50], en el reconocimiento de expresiones faciales [24, 53] y en la detección des las emociones [21, 23, 34]. Al igual que en muchas otras tareas de visión artificial, los datos de entrada para el reconocimiento facial pueden ser muy diferentes, incluyendo imágenes, vídeos, mapas de profundidad [49] [30], imágenes térmicas [48] [37], modelos 3D de la cara [5], entre otros. Por supuesto, el tipo de datos de entrada plantea diferentes limitaciones y oportunidades a nivel de modelación. En el caso en que los datos de entrada son videos, parece natural que la información temporal deba ser explotado para realizar tareas de reconocimiento. De hecho, trabajos recientes con- firman las ventajas de utilizar modelos temporales como Redes Neuronales Recurrentes (RNN) o Long-Short Term Memory (LSTM) para problemas de análisis de caras humanas, como la detección y seguimiento de los rostros [52], el reconocimiento de la expresión facial [3] y el reconocimiento de emociones [11] [7]. Sin embargo, después de una revisión exhaustiva de las fuentes bibliográficas, llegamos a la conclusión que muy pocos trabajos han abordado el problema del reconocimiento facial usando modelos neuronales temporales, y ninguno de ellos se ha ocupado de reconocimiento de caras en los videos. En nuestra opinión, esto representa una oportunidad interesante de investigación con espacio para contribuciones originales. En esta tesis, se propone de abordar el problema de diseñar modelos de aprendizaje profundos adaptados para explotar la información temporal contenida en los videos, para el reconocimiento de rostros. En concreto, nos proponemos estudiar una arquitectura basada en la CNN-LSTM, utilizada con éxito para otras tareas de análisis de vídeo como el reconocimiento y la descripción de objetos (image captioning) [10] [46], análisis de sentimiento [47] y clasificación del texto [54], y comparar los resultados obtenidos con otros métodos de reconocimiento facial en estado del arte [16] [50] [42] [6]. Este trabajo se organiza en diferentes etapas. En primer lugar, se llevará a cabo una revisión exhaustiva de los trabajos más recientes en el campo de computer vision en relación con los modelos de aprendizaje profundo, para el reconocimiento de caras en videos. En segundo lugar, queremos realizar un análisis preciso de los métodos más recientes y eficaces, junto con el estudio de los resultados observados hasta la fecha. Una vez reunida la información necesaria para estar informado sobre el estado de la arte, el siguiente paso importante será la definición de las arquitecturas implicadas, Red Neuronal Convolutivas y Long-Short Term Memory, junto con la elección de las bases de datos a utilizar para la validación experimental. La disponibilidad de datos para el reconocimiento facial en videos es grande. La más utilizada (y también la más difícil) es sin ninguna duda la colección Youtube Face (YTF). Sin embargo, en este trabajo se propone también construir una nueva base de datos a partir de la conocida Motion of Body database (MoBo). La colección MoBo DB está destinada a ser utilizada en tareas de detección y reconocimiento de movimientos. Por lo tanto, las imágenes de las que se compone son fotos de cuerpo entero de varios temas. En nuestro proyecto aplicamos técnicas de procesamiento de imágenes para detectar el rostro, recortar la región de la cara y almacenar la imagen resultante en un formato adecuado. La nueva base de datos sería una contribución adicional importante de este trabajo. Al diseño de la arquitectura y la elección de las bases de datos seguirá la aplicación y un conjunto de experimentos

    Attention-Set based Metric Learning for Video Face Recognition

    Full text link
    Face recognition has made great progress with the development of deep learning. However, video face recognition (VFR) is still an ongoing task due to various illumination, low-resolution, pose variations and motion blur. Most existing CNN-based VFR methods only obtain a feature vector from a single image and simply aggregate the features in a video, which less consider the correlations of face images in one video. In this paper, we propose a novel Attention-Set based Metric Learning (ASML) method to measure the statistical characteristics of image sets. It is a promising and generalized extension of Maximum Mean Discrepancy with memory attention weighting. First, we define an effective distance metric on image sets, which explicitly minimizes the intra-set distance and maximizes the inter-set distance simultaneously. Second, inspired by Neural Turing Machine, a Memory Attention Weighting is proposed to adapt set-aware global contents. Then ASML is naturally integrated into CNNs, resulting in an end-to-end learning scheme. Our method achieves state-of-the-art performance for the task of video face recognition on the three widely used benchmarks including YouTubeFace, YouTube Celebrities and Celebrity-1000.Comment: modify for ACP
    corecore