4 research outputs found

    Review of Research on Speech Technology: Main Contributions From Spanish Research Groups

    Get PDF
    In the last two decades, there has been an important increase in research on speech technology in Spain, mainly due to a higher level of funding from European, Spanish and local institutions and also due to a growing interest in these technologies for developing new services and applications. This paper provides a review of the main areas of speech technology addressed by research groups in Spain, their main contributions in the recent years and the main focus of interest these days. This description is classified in five main areas: audio processing including speech, speaker characterization, speech and language processing, text to speech conversion and spoken language applications. This paper also introduces the Spanish Network of Speech Technologies (RTTH. Red Temática en Tecnologías del Habla) as the research network that includes almost all the researchers working in this area, presenting some figures, its objectives and its main activities developed in the last years

    Proceedings of the 4th international conference on disability, virtual reality and associated technologies (ICDVRAT 2002)

    Get PDF
    The proceedings of the conferenc

    SoundRise: sviluppo e validazione di un'applicazione multimodale interattiva per la didattica basata sull'analisi di feature vocali

    Get PDF
    In questo lavoro si presentano i passi e gli strumenti utilizzati per lo sviluppo di SoundRise a partire da un prototipo Pure Data e i primi test effettuati per valutare e migliorare il risultato ottenuto. SoundRise è un’applicazione multimodale e interattiva a fini didattici, finalizzata a proporre ai bambini della scuola primaria una modalità alternativa di apprendimento delle caratteristiche del suono. Il bambino può esplorare tali caratteristiche attraverso una rappresentazione grafica in tempo reale delle proprie produzioni vocali. Protagonista di questo gioco è il sole e mediante la sua posizione sull’orizzonte di un paesaggio stilizzato, le sue dimensioni e il suo colore si cerca di dare una raffigurazione coerente delle caratteristiche sonore. L’altezza del sole sull’orizzonte corrisponde all’altezza del tono prodotto dall’utente, la sua dimensione all’ampiezza della produzione, mentre la durata è rappresentata dal viso sorridente del sole che apre o chiude gli occhi in presenza o assenza di produzione vocale. Non potendo ottenere un’immagine ragionevole del timbro partendo dall’analisi delle caratteristiche della voce, quest’ultimo è sostituito con una visualizzazione delle cinque vocali della lingua italiana associando a ciascuna un colore col quale disegnare il sole. Le caratteristiche possono essere ispezionate singolarmente oppure tutte assieme, lasciando piena libertà di scelta al bambino. Si è cercato di proporre un’interfaccia semplice e amichevole, che fosse intuitiva e non causasse confusione o distraesse l’utente dall’obiettivo dell’applicazione, basandosi su alcune delle caratteristiche indicate come importanti per una applicazione di questo tipo nel lavoro di Anne-Marie Oster dove si valuta l’applicazione clinica di un’applicazione di speech training nel trattamento di bambini affetti da deficit uditivo. Tra gli obiettivi di questo lavoro vi è lo studio delle potenzialità offerte dall’uso di Pure Data e libpd, una libreria C++ che consente di integrare un’istanza di Pure Data all’interno di una applicazione qualsiasi. Questa libreria permette di utilizzare Pure Data per creare in modo semplice e veloce un prototipo di ciò che si vuole realizzare e di convertirlo successivamente in un’applicazione multi-piattaforma facilmente distribuibile, in quanto non dipendente dalla presenza di Pure Data nel computer dell’utente. Molto interessante è la possibilità di creare applicazioni per i principali sistemi operativi mobili a partire dallo stesso codice. Si è cercato inoltre di strutturare il progetto in modo da ottenere una piattaforma versatile e adattabile alla sperimentazione delle tecnologie di analisi audio nel trattamento di patologie che interessano la produzione vocale di base. Questo progetto è stato testato su sistemi Apple Mac OS X, Apple iOS, Microsoft WindowsXP e Microsoft Windows7. Il test e l’eventuale adattamento su piattaforme GNU/Linux e Google Android saranno oggetto di lavori futuri. Nel primo capitolo si propone una selezione di lavori riguardanti applicazioni a supporto di logopedisti e terapeuti nel trattamento di patologie che riguardano la produzione vocale, sia dovute a deficit fisici che neurologici. Infine si propone una panoramica sul campo molto recente delle applicazioni per dispositivi mobili a supporto di persone affette da disturbo autistico, dei loro familiari o dei terapeuti che si occupano di queste sindromi. Nel secondo capitolo si presentano gli obiettivi di questo lavoro, un’analisi degli strumenti utilizzati, le caratteristiche dei progetti per lo sviluppo delle tre versioni dell’applicazione e le linee guida da rispettare per realizzare una patch Pure Data adatta ad essere utilizzata con libpd. Infine si descrivono le parti pi`u interessanti del codice sorgente prodotto. Nel terzo capitolo si illustrano le caratteristiche offerte dell’interfaccia grafica dell’applicazione e le modalit`a di utilizzo. Infine nel quarto capitolo vengono esposti i risultati di un test sull’usabilit`a dell’applicazione sottoposto a un pubblico eterogeneo di utent

    An evaluation assessment of a vowel training system : The Vowel Game

    Get PDF
    Tämän diplomityön tarkoituksena oli selvittää, onko reaaliaikaisella visuaalisella palautteella vaikutusta suomenruotsin /u̶/-vokaalin matkimiseen, ja voiko tämän kaltainen palaute tehdä lausumisesta säännöllisempää. Tutkimuksen kohteena oli Turun Yliopiston Informaatioteknologian laitoksella luotu, Annu Paganuksen toteuttama The Vowel Game -niminen vokaalipeli. Vokaalipeliä testattiin 20 suomalaisella aikuisella, joiden iät vaihtelivat välillä 19-30 vuotta ja joilla ei ollut entuudestaan ruotsinkielistä taustaa koulussa opitun ruotsin lisäksi. Henkilöt jaettiin kahteen ryhmään siten, että molemmissa oli 4 naista ja 6 miestä. Varsinainen testiryhmä hyödynsi Vokaalipelin reaaliaikaista visuaalista palautetta kontrolloiduissa testiolosuhteissa matkiakseen yksittäistä suomenruotsin /u̶/-vokaalia sekä sanaa /hu̶s/ 'hus' (talo). Matkiminen tapahtui tallenteelta kuultujen sekä synteettisten (/u̶/) että luonnollisten (/hu̶s/) mallien perusteella. Verrokkiryhmä matki ainoastaan malleja ilman pelin visuaalista palautetta. Tutkimusten hypoteesina oli olettamus, että visuaalista palautetta saanut testiryhmä kykenisi kohdistamaan imitoimansa vokaalit paremmin Vokaalipelin vokaalikartassa kuin verrokkiryhmä ja sitä kautta oppisi tuottamaan vokaalin säännöllisemmin. Tarkoituksena oli tutkia myös ryhmien keskimääräisten osumapisteiden hajontoja alku- ja lopputilanteissa, sekä tutkia, miten tulokset muuttuivat sekä ryhmien sisällä että ryhmien välillä. Tulosten analyysit osoittivat, että Vokaalipelin tuottama reaaliaikainen visuaalinen palaute auttoi testiryhmää selkeästi tuottamaan suomenruotsin /u̶/-vokaalin säännöllisemmin kuin verrokkiryhmä. Tämä tulos viittaisi siihen, että Vokaalipeliä voitaisiin käyttää työkaluna sekä puheterapiassa että apuvälineenä vieraan kielen opiskelijoille uusien vokaalikategorioiden oppimisessa. Tutkimuksessa esitetään katsaukset myös muutamiin aiempiin vokaalien lausumista opettaviin järjestelmiin sekä formanttianalyysiin ja sen matemaattisiin metodeihin. Lisäksi tutkimus esittää taustatietona perusteoriat puheentuottamisen anatomiasta sekä yleiset käsitykset puheäänten havaitsemisesta ja kategorisoimisesta.The purpose of this thesis was to study the effects of real-time visual feedback on the pronunciation/imitation of the Finland Swedish vowel /u̶/ and to answer the research question of whether or not visual feedback has an effect in making the pronunciation more constant. The center of the study was the new vowel training system, The Vowel Game, which was implemented by Annu Paganus at the department of Information Technology at the University of Turku. The Vowel Game was tested using 20 Finnish adults aged 19-30 yrs. who had no Swedish-speaking background other than that studied at school. The test subjects were divided into two groups. The treatment group, which consisted of 6 male and 4 female subjects, used The Vowel Game's visual real-time feedback under controlled circumstances in imitating the sustained /u̶/-vowel and a word containing this vowel /hu̶s/ ('hus' meaning 'house') according to both synthetic (/u̶/) and natural (/hu̶s/) audio models. The control group, also consisting of 6 male and 4 female subjects, was never exposed to the effects of The Vowel Game's visual feedback, but only imitated the /u̶/-vowel and the 'hus'-word under the same circumstances using the same audio models as the treatment group. Their imitations were nevertheless recorded with The Vowel Game. The hypothesis was that the treatment group's deviation in the pronunciation of the vowels would be smaller in the end in comparison to the control group's performance. The analysis of the results strongly indicated that The Vowel Game's real-time visual feedback does have a positive effect on the constancy of the pronunciation of the /u̶/-vowel. This would suggest that The Vowel Game has the potential of becoming a tool in speech therapy and a help to individuals attempting to learn new vowel categories. The study also takes a look at some of the previous vowel training systems and their main differences with The Vowel Game alongside the mathematical methods of formant retrieval and the features and characteristics of the vocal tract. In addition, the study presents the general views on the perception and categorization of speech sounds as the theoretical background for The Vowel Game
    corecore