105 research outputs found

    Programming Language Techniques for Natural Language Applications

    Get PDF
    It is easy to imagine machines that can communicate in natural language. Constructing such machines is more difficult. The aim of this thesis is to demonstrate how declarative grammar formalisms that distinguish between abstract and concrete syntax make it easier to develop natural language applications. We describe how the type-theorectical grammar formalism Grammatical Framework (GF) can be used as a high-level language for natural language applications. By taking advantage of techniques from the field of programming language implementation, we can use GF grammars to perform portable and efficient parsing and linearization, generate speech recognition language models, implement multimodal fusion and fission, generate support code for abstract syntax transformations, generate dialogue managers, and implement speech translators and web-based syntax-aware editors. By generating application components from a declarative grammar, we can reduce duplicated work, ensure consistency, make it easier to build multilingual systems, improve linguistic quality, enable re-use across system domains, and make systems more portable

    Speech-to-speech translation to support medical interviews

    Get PDF
    Projeto de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013Este relatório apresenta a criação de um sistema de tradução fala-para-fala. O sistema consiste na captação de voz na forma de sinal áudio que de seguida é interpretado, traduzido e sintetizado para voz. Tendo como entrada um enunciado numa linguagem de origem e como saída um enunciado numa linguagem destino. O sistema implementado tem como âmbito do seu funcionamento o domínio médico, tendo em vista apoiar o diálogo entre médico e utente em linguagens diferentes durante consultas médicas. No caso do presente trabalho, foram escolhidos o português e inglês, sendo possível a tradução fala-para-fala nos dois sentidos. A escolha destas duas línguas resulta sobretudo da disponibilidade de recursos para o desenvolvimento do sistema. Ao longo dos anos tem existido um esforço de pesquisa e desenvolvimento em tecnologia que permite quebrar as barreiras do multilinguismo. Uma dessas tecnologias, com resultados de qualidade crescentemente aceitável, são os sistemas de tradução fala-para-fala. Em geral, estes sistemas são compostos por três componentes: reconhecimento de fala, tradução automática e sintetização de voz. Neste projecto foram implementadas as três componentes. No entanto, uma vez que face às tecnologias disponíveis, a componente de tradução tem um maior impacto no desempenho final do sistema, a esta foi conferida uma maior atenção. Embora nós, como humanos, compreendamos facilmente a linguagem falada, isto é algo extremamente difícil e complexo de um ponto de vista computacional. O objectivo do reconhecimento de fala é abordar esta tarefa computacionalmente através da construção de sistemas que mapeiam um sinal acústico para uma sequência de caracteres. Os modelos actuais para reconhecimento de fala fazem uso de modelos estatísticos. Nestes, a fala é reconhecida através do uso de modelos de linguagem que possibilitam a estimativa das probabilidades para as palavras, independentemente do sinal de entrada, e de um modelo acústico onde as propriedades acústicas da fala estão contempladas. Os modelos actuais de tradução automática, assim como os de reconhecimento de fala, são na sua larga maioria estatísticos. Actualmente os modelos de tradução baseados em unidades frásicas de input são os que obtém os resultados com melhor qualidade. Esta abordagem consiste na tradução de pequenos segmentos de palavras, onde existe uma tradução lexical e um modelo de alinhamento. Os modelos estatísticos fazem uso de textos de duas línguas alinhados, tendo como princípio o facto de que através da frequência de cada segmento de palavras, em relação à outra linguagem, seja obtida uma distribuição probabilística. Deste modo torna-se possível calcular qual a palavra ou conjunto de palavras mais prováveis de ocorrer como tradução para determinado texto que se pretenda traduzir. A sintetização de voz consiste na geração de fala na forma de onda acústica tendo como ponto de partida uma palavra ou uma sequência de palavras. Envolve o processamento de linguagens naturais e processamento de sinal. O primeiro converte o texto numa representação fonética e o último converte essa representação em sinal acústico. Neste documento é apresentado o estado da arte das três áreas envolvidas. São também apresentados os sistemas de tradução fala-para-fala, fazendo ou não uso do domínio médico, e também os processos existentes para a avaliação de cada uma das componentes. Tendo em vista a implementação de um sistema com as diversas componentes, foi necessário efectuar um levantamento da tecnologia existente. O levantamento teve por objectivo a implementação de duas soluções aplicacionais. Uma aplicação disponível pela internet como página web e outra através de uma aplicação móvel, ambas permitindo o reconhecimento de fala, tradução automática e sintetização de voz em ambas as linguagens e direcções. Dois sistemas de reconhecimento de fala foram escolhidos, o Microsoft Speech Platform para a aplicação móvel e o reconhecimento de fala disponível pelo Google nos browsers Google Chrome. O primeiro a ser usado na aplicação móvel e o segundo na aplicação web. O sistema de tradução automática escolhido foi o Moses. Sendo um sistema de tradução estatístico que permite a criação de modelos de tradução diversos, como os modelos baseados em frase e os modelos baseados em fatores. O sistema de sintetização de voz escolhido foi o Microsoft Speech Platform. A aplicação móvel foi desenvolvida para a plataforma iOS da Apple tendo em vista o uso de um telemóvel iPhone. A integração dos componentes pelas diversas arquitecturas foi assegurada pela implementação de web services. O reconhecimento de fala na aplicação web foi desenvolvido recorrendo ao uso da W3C Speech Input API Specifications, onde a programação através de HTML permite a captação de áudio no Google Chrome. Para a implementação do sistema tradução fala-para-fala foi necessário a obtenção de corpora paralelos de forma a se poder treinar os modelos estatísticos, sendo este um dos factores cruciais para o bom desempenho dos componentes. Uma vez que o sistema tem como domínio de aplicação o diálogo médico, corpora neste domínio seria o mais vantajoso. No entanto, a inexistência de tais corpora para o par Inglês-Português levou à aquisição de corpora alternativos. Através de uma experiência exploratória foi abordado o tipo de implementação mais adequado da componente de reconhecimento de fala, tendo como foco o modelo de linguagem. Três experiências foram então conduzidas de forma a decidir entre a aplicação de um modelo de linguagem baseado em regras ou um modelo estatístico. Para implementar um modelo de linguagem baseado em regras foi necessário a criação de um corpus médico que reflectisse um diálogo entre médico e paciente. Para tal, com a ajuda de um médico, criei um diálogo de um caso hipotético de lesão num braço devido a um acidente de carro. Este diálogo teve como base para a sua estruturação a aplicação do processo de anamnesis. A anamnesis consiste numa metodologia médica que através de um conjunto de perguntas chave permite adquirir a informação necessária para a formulação de um diagnóstico médico e decisão sobre o tratamento necessário. O corpus médico foi também transformado num corpus de fala de forma a este ser avaliado ao longo das experiências. Numa primeira experiência foi criada uma gramática básica cuja implementação foi obtida recorrendo à Speech Recognition Grammar Specification de forma a ser usada como modelo de linguagem pela componente de reconhecimento de fala. A segunda experiência tinha como objectivo a criação de uma gramática mais complexa que a primeira. Para tal foi criada uma gramática livre de contexto. Após a criação da gramática livre de contexto esta foi convertida manualmente para uma gramática SRGS. Na terceira experiência foram criados dois modelo de linguagem estatísticos, o primeiro fazendo uso do mesmo corpus que o usado nas experiências anteriores e o segundo composto por 30.000 frases independentes. Obteve-se melhores resultados com o modelo de linguagem estatístico e este ficou como a escolha para a implementação do componente de reconhecimento de fala. No treino da componente de tradução automática foram usados dois modelos estatísticos, baseados em frases e em factores. Pretendeu-se comparar os resultados entre os dois modelos de forma a escolher o modelo mais vantajoso. Para fazer uso do modelo baseado em factores foi necessária a preparação de corpora. Com os corpora já adquiridos foi concretizada a sua anotação para ambas as linguagens. Recorrendo ao LX-Suite e ao CoreNLP, foram criados corpora anotados com lemmas e informação morfossintáctica, com a primeira ferramenta para o português e a última para o inglês. Uma vez que a componente de sintetização de voz permitia uma implementação célere, esta foi implementada recorrendo aos modelos já existentes para ambas as linguagens e disponibilizados pela ferramenta. Por fim, são apresentados os resultados obtidos e a sua avaliação. Tanto a avaliação do sistema de reconhecimento de fala como o de tradução automática demonstraram um desempenho muito competitivo, do nível do estado da arte. A componente de reconhecimento de fala, assim como a componente de tradução automática, obtiveram melhores resultados fazendo-se uso de modelos de linguagem estatístico.This report presents the development of a speech-to-speech translation system. The system consists in the capture of voice as an audio signal that is then interpreted, translated and synthesized to voice for a target language. The three main components of the system, speech recognition, machine translation and speech synthesis, make use of statistical models, such as hidden Markov models. Given the technology available, the machine translation component has a greater impact on the performance of the system, a greater attention has thus been given to it. The system assumes the support to medical interviews between doctor and patient in different languages as its applicational domain. Two application solutions were developed: an online service on a website and a mobile application. This report begins by presenting the general concepts of the relevant areas involved. It proceeds with an overview of the state of the art relating to each area as well as to the methods used for the evaluation of the different components. It provides also an overview of existing technology and the criteria for choosing the tools to be used in the development of the system. It explains the acquisition and creation of the corpora used, and the process of development and integration of the components: speech recognition, machine translation and text-to-speech. Finally, the evaluation results are presented, as well as the final conclusions

    Answering questions about archived, annotated meetings

    Get PDF
    Retrieving information from archived meetings is a new domain of information retrieval that has received increasing attention in the past few years. Search in spontaneous spoken conversations has been recognized as more difficult than text-based document retrieval because meeting discussions contain two levels of information: the content itself, i.e. what topics are discussed, but also the argumentation process, i.e. what conflicts are resolved and what decisions are made. To capture the richness of information in meetings, current research focuses on recording meetings in Smart-Rooms, transcribing meeting discussion into text and annotating discussion with semantic higher-level structures to allow for efficient access to the data. However, it is not yet clear what type of user interface is best suited for searching and browsing such archived, annotated meetings. Content-based retrieval with keyword search is too naive and does not take into account the semantic annotations on the data. The objective of this thesis is to assess the feasibility and usefulness of a natural language interface to meeting archives that allows users to ask complex questions about meetings and retrieve episodes of meeting discussions based on semantic annotations. The particular issues that we address are: the need of argumentative annotation to answer questions about meetings; the linguistic and domain-specific natural language understanding techniques required to interpret such questions; and the use of visual overviews of meeting annotations to guide users in formulating questions. To meet the outlined objectives, we have annotated meetings with argumentative structure and built a prototype of a natural language understanding engine that interprets questions based on those annotations. Further, we have performed two sets of user experiments to study what questions users ask when faced with a natural language interface to annotated meeting archives. For this, we used a simulation method called Wizard of Oz, to enable users to express questions in their own terms without being influenced by limitations in speech recognition technology. Our experimental results show that technically it is feasible to annotate meetings and implement a deep-linguistic NLU engine for questions about meetings, but in practice users do not consistently take advantage of these features. Instead they often search for keywords in meetings. When visual overviews of the available annotations are provided, users refer to those annotations in their questions, but the complexity of questions remains simple. Users search with a breadth-first approach, asking questions in sequence instead of a single complex question. We conclude that natural language interfaces to meeting archives are useful, but that more experimental work is needed to find ways to incent users to take advantage of the expressive power of natural language when asking questions about meetings

    Concepts of Morality in Horus Rising: The seeds of heresy are sown

    Get PDF
    In this Master’s Thesis, I am exploring Concepts of Morality in Horus Rising: The seeds of heresy are sown by Dan Abnett. The text is the opening book of The Horus Heresy series of science fantasy novels set in the fictional Warhammer 40,000 universe. The thesis opens with an introduction and background knowledge of Warhammer 40,000. The discussion then leads on to the concepts of morality relevant to this thesis and how they are applicable and interpreted within the text. Horus Rising: The seeds of heresy are sown is an exemplary text for examining the concepts of morality as it blends realism, history and a hypothetical future set in the Milky Way Galaxy. By exploring the moral dilemmas raised in the text and cross-referencing them with examples taken from real-life, it is possible to broaden the reader’s understanding of the nuances of morality and its various applications. The fundamental principles of morality are approached in this thesis with the assumption that there is some form of objective good and evil that people subscribe to in order to function morally admissibly. The examples given highlight the importance of subjective experience in determining whether particular actions are considered morally just in certain scenarios. This thesis aims to shorten the gap between a person’s subjective moral experience and their inherent, objective understanding of morality. The protagonists in Horus Rising: The seeds of heresy are sown come from varying backgrounds and as a result, have differing interpretations of what is moral and what is not. Coming from the same organisation binds them by some fundamental moral values but their subjective experiences and upbringing lead to conflicting interpretations of major events that occur in the text. This thesis discovers the extent that deontic ethics may be used to interpret and identify the basic principles underlying perceptions of morality. Furthermore, superstition and its role in maintaining societal moral fabric is explored using narrative frameworks, the musings of Eckhart Tolle and the influence of tribalism on moral belief systems. Individual and collective moral understanding is also explored in the text and the notion is analysed using examples presented throughout the thesis. The main focus is on the effects the ego, social distance and group affiliation have on the formation of both individual and collective moralities. Warfare is analysed from the perspective that it is dynamic and that there is no clear method of assigning moral accountability for resorting to war and to some extent, conduct during war. The contemporary evolution of medical ethics highlights uncertainty in a period of rapid developments in the fields of genetics and augmentation. The aesthetic presentation of physical augmentation may affect perceptions of morality, especially if grotesque and disparate features are included for literary effect. The conclusions drawn from this thesis are that morality may be defined and regulated by society and the law but the application of moral behaviour in practice is both contextual and subjective

    Mathematical surfaces models between art and reality

    Get PDF
    In this paper, I want to document the history of the mathematical surfaces models used for the didactics of pure and applied “High Mathematics” and as art pieces. These models were built between the second half of nineteenth century and the 1930s. I want here also to underline several important links that put in correspondence conception and construction of models with scholars, cultural institutes, specific views of research and didactical studies in mathematical sciences and with the world of the figurative arts furthermore. At the same time the singular beauty of form and colour which the models possessed, aroused the admiration of those entirely ignorant of their mathematical attraction

    Screen Genealogies

    Get PDF
    Against the grain of the growing literature on screens, *Screen Genealogies* argues that the present excess of screens cannot be understood as an expansion and multiplication of the movie screen nor of the video display. Rather, screens continually exceed the optical histories in which they are most commonly inscribed. As contemporary screens become increasingly decomposed into a distributed field of technologically interconnected surfaces and interfaces, we more readily recognize the deeper spatial and environmental interventions that have long been a property of screens. For most of its history, a screen was a filter, a divide, a shelter, or a camouflage. A genealogy stressing transformation and descent rather than origins and roots emphasizes a deeper set of intersecting and competing definitions of the screen, enabling new thinking about what the screen might yet become

    Resistance and Production in the Ruins of Pedagogy and Student Writing

    Get PDF
    This thesis is an examination of the (im)possibility of the critical in pedagogy and student writing. More specifically, using Foucault’s concept of governance, and his genealogical problematization of power/knowledge which animates and constrains the present, it interrogates normative understandings of ‘the critical’ as a criterion against which practice and language are evaluated in the academy. A poststructuralist, materialist approach to understanding academic work and its subjects is developed and employed in exploring the ‘ruins’ of pedagogy and student writing, where the metaphor of ‘ruins’ refers to ‘the crumbling edifice of Enlightenment values’ (Maclure 2011:997). Foucault’s methods and sensitivities, and Derrida’s understanding of the ‘event’ of writing, are conjointly put to work to problematise the operations of power in the governance, administration and legitimation of hegemonic understandings of ‘the critical’ in higher education. Deploying as analytical notions and tools Foucault’s understanding of power as multiple forces of resistance and consent, or as an immanence in our doings which operates in minute, micro-physical heterogeneous ways, this thesis scrutinizes the ways the present of critical pedagogical practice, and undergraduate student writing in the field of intercultural communication, is produced and conditioned from within. The ineluctable oscillation between resistance and consent in such presents puts into question the post- possibility of ‘the critical’, here understood as ‘the right to difference, variation and metamorphosis’ (Derrida 2006:87) within the ‘matrix of calculabilities’ in the university (Ball & Olmedo 2012:103). This question is put into context in relation to the wider field of pedagogical and student writing practices. Using close reading of student assessment texts, contingent ‘micro-practices of resistance’ are considered for ways they fleetingly keep openness in play, and proposed as one tentative way forward for a post-critical praxis of literacy pedagogy and writing
    corecore