4 research outputs found
Separació de shots de vÃdeo amb anà lisis multimodal
La indexació i la recuperació de vÃdeo en format digital és una de les à rees del tractament digital de senyals audiovisuals en les quals s’està desenvolupant una gran activitat. La quantitat d’informació audiovisual digital disponible en bases de dades està creixent de forma espectacular grà cies al desenvolupament tecnològic en la societat de la informació i la comunicació en els últims anys. Per aquesta raó, l’accés a les dades audiovisuals ha de ser el més senzill i rà pid possible per a estalviar temps i recursos. Per això es necessiten eines automà tiques de segmentació, que separin una seqüència de vÃdeo en els seus shots elementals. S’han implementat dos descriptors de color basats en histogrames definits en l’està ndard MPEG-7, el Scalable Color Descriptor (SCD), que extreu els bins de l’histograma de l’espai de color HSV, i el Group-of-Frames Descriptor (GoF), que s’utilitza per a representar el contingut de cada shot detectat mitjançant l’acumulació de tres histogrames diferents. Una vegada extretes les caracterÃstiques de color, es calculen mesures de distà ncia L2 entre frames consecutius que proporcionen la informació necessà ria per a, aplicant algorismes basats en llindars temporals adaptatius, detectar els shots (hard cuts) d’una seqüència de vÃdeo. Es presenten un conjunt de resultats per a tots els gèneres de vÃdeo inclosos en la base de dades segmentada manualment. Aquests resultats s’avaluen a partir de la mesura de distà ncia L2 entre frames consecutius per als parà metres estadÃstics μ i σ del canal HSV i, per altra banda, a partir de la mesura de distà ncia L2 entre frames consecutius per als bins de l’histograma extret pel SCD. Recall i Precision mesuren la qualitat de les deteccions. Per a la valoració global del gènere de vÃdeo s’obtenen els següents resultats: Recallbins (97,29%) > Recall μ, σ (92,69%) Precisionbins (78,92%) < Precision μ, σ (86,51%
Word prediction for a real-time reader device for blind people
The aim of this project, taking the software developed in a previous work as the starting point, is to increase the recognition reliability and robustness. The main goal of the future global system is the ability to be the closest possible to the way that blind people read, increasing the accessibility to this group of people.
If this system can considerably help blind people to read, these people would probably get more reliability to access new technologies, due to the fact that unfortunately, nowadays, a great amount of blind people do not use computers because they can not access them.
Therefore, a way to increase the system reliability is to make it more robust. The current system based on artificial neural networks processes a character and tries to recognize it only taking into consideration its acquired image from the camera.
In consequence, the system does not take into consideration other information which would increase the system accuracy.
Other information could be the use of previous characters or some orthographic notions of the language in use, which are useful to avoid errors when a bad recognition has occurred.
For this reason, a character and word-level prediction systems have been implemented. On the one hand, useful to add a simultaneous way of recognition and, on the other hand, the starting point of a system able to correct characters or words in text
Separació de shots de vÃdeo amb anà lisis multimodal
La indexació i la recuperació de vÃdeo en format digital és una de les à rees del tractament digital de senyals audiovisuals en les quals s’està desenvolupant una gran activitat. La quantitat d’informació audiovisual digital disponible en bases de dades està creixent de forma espectacular grà cies al desenvolupament tecnològic en la societat de la informació i la comunicació en els últims anys. Per aquesta raó, l’accés a les dades audiovisuals ha de ser el més senzill i rà pid possible per a estalviar temps i recursos. Per això es necessiten eines automà tiques de segmentació, que separin una seqüència de vÃdeo en els seus shots elementals. S’han implementat dos descriptors de color basats en histogrames definits en l’està ndard MPEG-7, el Scalable Color Descriptor (SCD), que extreu els bins de l’histograma de l’espai de color HSV, i el Group-of-Frames Descriptor (GoF), que s’utilitza per a representar el contingut de cada shot detectat mitjançant l’acumulació de tres histogrames diferents. Una vegada extretes les caracterÃstiques de color, es calculen mesures de distà ncia L2 entre frames consecutius que proporcionen la informació necessà ria per a, aplicant algorismes basats en llindars temporals adaptatius, detectar els shots (hard cuts) d’una seqüència de vÃdeo. Es presenten un conjunt de resultats per a tots els gèneres de vÃdeo inclosos en la base de dades segmentada manualment. Aquests resultats s’avaluen a partir de la mesura de distà ncia L2 entre frames consecutius per als parà metres estadÃstics μ i σ del canal HSV i, per altra banda, a partir de la mesura de distà ncia L2 entre frames consecutius per als bins de l’histograma extret pel SCD. Recall i Precision mesuren la qualitat de les deteccions. Per a la valoració global del gènere de vÃdeo s’obtenen els següents resultats: Recallbins (97,29%) > Recall μ, σ (92,69%) Precisionbins (78,92%) < Precision μ, σ (86,51%
Word prediction for a real-time reader device for blind people
The aim of this project, taking the software developed in a previous work as the starting point, is to increase the recognition reliability and robustness. The main goal of the future global system is the ability to be the closest possible to the way that blind people read, increasing the accessibility to this group of people.
If this system can considerably help blind people to read, these people would probably get more reliability to access new technologies, due to the fact that unfortunately, nowadays, a great amount of blind people do not use computers because they can not access them.
Therefore, a way to increase the system reliability is to make it more robust. The current system based on artificial neural networks processes a character and tries to recognize it only taking into consideration its acquired image from the camera.
In consequence, the system does not take into consideration other information which would increase the system accuracy.
Other information could be the use of previous characters or some orthographic notions of the language in use, which are useful to avoid errors when a bad recognition has occurred.
For this reason, a character and word-level prediction systems have been implemented. On the one hand, useful to add a simultaneous way of recognition and, on the other hand, the starting point of a system able to correct characters or words in text