4 research outputs found

    Deep Multimodal Learning for Audio-Visual Speech Recognition

    Full text link
    In this paper, we present methods in deep multimodal learning for fusing speech and visual modalities for Audio-Visual Automatic Speech Recognition (AV-ASR). First, we study an approach where uni-modal deep networks are trained separately and their final hidden layers fused to obtain a joint feature space in which another deep network is built. While the audio network alone achieves a phone error rate (PER) of 41%41\% under clean condition on the IBM large vocabulary audio-visual studio dataset, this fusion model achieves a PER of 35.83%35.83\% demonstrating the tremendous value of the visual channel in phone classification even in audio with high signal to noise ratio. Second, we present a new deep network architecture that uses a bilinear softmax layer to account for class specific correlations between modalities. We show that combining the posteriors from the bilinear networks with those from the fused model mentioned above results in a further significant phone error rate reduction, yielding a final PER of 34.03%34.03\%.Comment: ICASSP 201

    Anuário Científico – 2011 Resumos de Artigos, Comunicações, Livros e Monografias de Mestrado

    Get PDF
    Há mais de uma década que o ISEL vem firmando a sua aposta na busca e na divulgação do conhecimento científico na área da Engenharia, assentes na inovação e no desenvolvimento de novas tecnologias, procurando que os resultados alcançados nos projetos de investigação tenham impacto na indústria e na vida dos cidadãos como forma de responder às necessidades cada vez mais complexas e exigentes da sociedade no seu todo. Nesta relação, o ISEL tem contribuído para a evolução da produção e do conhecimento científicos, assumindo, por vezes numa posição de vanguarda, ora em iniciativa própria ora em parceria com diversas instituições, quer de ensino quer do tecido empresarial. Como forma de dar visibilidade ao trabalho desenvolvido pelos docentes (com afiliação ISEL) e alunos do ISEL, o Anuário Científico tornou-se num meio de divulgação privilegiado, estando disponível em acesso livre a toda a comunidade científica mas também a todos os cidadãos, podendo ser consultado em formato eletrónico no sítio institucional do ISEL, bem como no Repositório Científico do Instituto Polítécnico de Lisboa.1 Fazendo uma análise comparativa em relação às publicações referentes a 2009 e a 2010, constata-se que o número de publicações duplicou em 2011

    Manipulador aéreo con brazos antropomórficos de articulaciones flexibles

    Get PDF
    [Resumen] Este artículo presenta el primer robot manipulador aéreo con dos brazos antropomórficos diseñado para aplicarse en tareas de inspección y mantenimiento en entornos industriales de difícil acceso para operarios humanos. El robot consiste en una plataforma aérea multirrotor equipada con dos brazos antropomórficos ultraligeros, así como el sistema de control integrado de la plataforma y los brazos. Una de las principales características del manipulador es la flexibilidad mecánica proporcionada en todas las articulaciones, lo que aumenta la seguridad en las interacciones físicas con el entorno y la protección del propio robot. Para ello se ha introducido un compacto y simple mecanismo de transmisión por muelle entre el eje del servo y el enlace de salida. La estructura en aluminio de los brazos ha sido cuidadosamente diseñada de forma que los actuadores estén aislados frente a cargas radiales y axiales que los puedan dañar. El manipulador desarrollado ha sido validado a través de experimentos en base fija y en pruebas de vuelo en exteriores.Ministerio de Economía y Competitividad; DPI2014-5983-C2-1-
    corecore