7 research outputs found

    Pruning neural network using matrix factorization

    Get PDF
    Matrix factorization and the procedure of data fusion are used to detect patterns in data. The factorized model maps the data to a low-dimensional space, therefore shrinking it and partially eliminating noise. Factorized models are thus more robust and have a higher predictive accuracy. With this procedure we could solve the problem of overfitting in neural networks and improve their ability to generalize. Here, we report on how to simultaneously factorize the parameters of a neural network, which can be represented with multiple matrices, to prune not important connections and therefore improve predictive accuracy. We report on empirical results of pruning normal and deep neural networks. The proposed method performs similarly to the best standard approaches to pruning neural networks

    Advances in Subspace-based Solutions for Diarization in the Broadcast Domain

    Get PDF
    La motivaci贸n de esta tesis es la necesidad de soluciones robustas al problema de diarizaci贸n. Estas t茅cnicas de diarizaci贸n deben proporcionar valor a帽adido a la creciente cantidad disponible de datos multimedia mediante la precisa discriminaci贸n de los locutores presentes en la se帽al de audio. Desafortunadamente, hasta tiempos recientes este tipo de tecnolog铆as solamente era viable en condiciones restringidas, quedando por tanto lejos de una soluci贸n general. Las razones detr谩s de las limitadas prestaciones de los sistemas de diarizaci贸n son m煤ltiples. La primera causa a tener en cuenta es la alta complejidad de la producci贸n de la voz humana, en particular acerca de los procesos fisiol贸gicos necesarios para incluir las caracter铆sticas discriminativas de locutor en la se帽al de voz. Esta complejidad hace del proceso inverso, la estimaci贸n de dichas caracter铆sticas a partir del audio, una tarea ineficiente por medio de las t茅cnicas actuales del estado del arte. Consecuentemente, en su lugar deber谩n tenerse en cuenta aproximaciones. Los esfuerzos en la tarea de modelado han proporcionado modelos cada vez m谩s elaborados, aunque no buscando la explicaci贸n 煤ltima de naturaleza fisiol贸gica de la se帽al de voz. En su lugar estos modelos aprenden relaciones entre la se帽ales ac煤sticas a partir de un gran conjunto de datos de entrenamiento. El desarrollo de modelos aproximados genera a su vez una segunda raz贸n, la variabilidad de dominio. Debido al uso de relaciones aprendidas a partir de un conjunto de entrenamiento concreto, cualquier cambio de dominio que modifique las condiciones ac煤sticas con respecto a los datos de entrenamiento condiciona las relaciones asumidas, pudiendo causar fallos consistentes en los sistemas.Nuestra contribuci贸n a las tecnolog铆as de diarizaci贸n se ha centrado en el entorno de radiodifusi贸n. Este dominio es actualmente un entorno todav铆a complejo para los sistemas de diarizaci贸n donde ninguna simplificaci贸n de la tarea puede ser tenida en cuenta. Por tanto, se deber谩 desarrollar un modelado eficiente del audio para extraer la informaci贸n de locutor y como inferir el etiquetado correspondiente. Adem谩s, la presencia de m煤ltiples condiciones ac煤sticas debido a la existencia de diferentes programas y/o g茅neros en el domino requiere el desarrollo de t茅cnicas capaces de adaptar el conocimiento adquirido en un determinado escenario donde la informaci贸n est谩 disponible a aquellos entornos donde dicha informaci贸n es limitada o sencillamente no disponible.Para este prop贸sito el trabajo desarrollado a lo largo de la tesis se ha centrado en tres subtareas: caracterizaci贸n de locutor, agrupamiento y adaptaci贸n de modelos. La primera subtarea busca el modelado de un fragmento de audio para obtener representaciones precisas de los locutores involucrados, poniendo de manifiesto sus propiedades discriminativas. En este 谩rea se ha llevado a cabo un estudio acerca de las actuales estrategias de modelado, especialmente atendiendo a las limitaciones de las representaciones extra铆das y poniendo de manifiesto el tipo de errores que pueden generar. Adem谩s, se han propuesto alternativas basadas en redes neuronales haciendo uso del conocimiento adquirido. La segunda tarea es el agrupamiento, encargado de desarrollar estrategias que busquen el etiquetado 贸ptimo de los locutores. La investigaci贸n desarrollada durante esta tesis ha propuesto nuevas estrategias para estimar el mejor reparto de locutores basadas en t茅cnicas de subespacios, especialmente PLDA. Finalmente, la tarea de adaptaci贸n de modelos busca transferir el conocimiento obtenido de un conjunto de entrenamiento a dominios alternativos donde no hay datos para extraerlo. Para este prop贸sito los esfuerzos se han centrado en la extracci贸n no supervisada de informaci贸n de locutor del propio audio a diarizar, sinedo posteriormente usada en la adaptaci贸n de los modelos involucrados.<br /
    corecore