L'obiettivo di questa tesi è la definizione di un linguggio, basato su XML, che descriva in maniera logica le interfacce multimodali integrando la modalità grafica con quella vocale.
Viene proposto un metodo per la trasformazione da interfaccia logica a interfaccia multimodale reale, utilizzando template XSLT che producono codice XHTML+Voice