437 research outputs found

    A new method for determining the number of gaussians in hidden Markov models for continuos speech recognition systems

    Get PDF
    Orientador: Fabio ViolaroTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de ComputaçãoResumo: Atualmente os sistemas de reconhecimento de fala baseados em HMMs são utilizados em diversas aplicações em tempo real, desde telefones celulares até automóveis. Nesse contexto, um aspecto importante que deve ser considerado é a complexidade dos HMMs, a qual está diretamente relacionada com o custo computacional. Assim, no intuito de permitir a aplicação prática do sistema, é interessante otimizar a complexidade dos HMMs, impondo-se restrições em relação ao desempenho no reconhecimento. Além disso, a otimização da topologia é importante para uma estimação confiável dos parâmetros dos HMMs. Os trabalhos anteriores nesta área utilizam medidas de verossimilhança para a obtenção de sistemas que apresentem um melhor compromisso entre resolução acústica e robustez. Este trabalho apresenta o novo Algoritmo para Eliminação de Gaussianas (GEA), o qual é baseado em uma análise discriminativa e em uma análise interna, para a determinação da complexidade mais apropriada para os HMMs. O novo método é comparado com o Critério de Informação Bayesiano (BIC), com um método baseado em medidas de entropia, com um método discriminativo para o aumento da resolução acústica dos modelos e com os sistemas contendo um número fixo de Gaussianas por estadoAbstract: Nowadays, HMM-based speech recognition systems are used in many real time processing applications, from cell phones to auto mobile automation. In this context, one important aspect to be considered is the HMM complexity, which directly determines the system computational load. So, in order to make the system feasible for practical purposes, it is interesting to optimize the HMM size constrained to a minimum acceptable recognition performance. Furthermore, topology optimization is also important for reliable parameter estimation. Previous works in this area have used likelihood measures in order to obtain models with a better compromise between acoustic resolution and robustness. This work presents the new Gaussian Elimination Algorithm (GEA), which is based on a discriminative analysis and on an internal analysis, for determining the more suitable HMM complexity. The new approach is compared to the classical Bayesian Information Criterion (BIC), to an entropy based method, to a discriminative-based method for increasing the acoustic resolution of the HMMs and also to systems containing a fixed number of Gaussians per stateDoutoradoTelecomunicações e TelemáticaDoutor em Engenharia Elétric

    Laços da tradução: as versões em língua espanhola de Laços de Família, de Clarice Lispector, em um estudo baseado em córpus

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos de TraduçãoA presente pesquisa investiga a ocorrência de um dos fenômenos da tradução, denominado de normalização, inicialmente descrito por Baker (1995), no par linguístico português/espanhol. De um modo geral, normalização é a tendência em utilizar em excesso características comuns da língua alvo, minimizando os aspectos criativos ou menos comuns do texto original. Scott (1998) propõe onze itens que caracterizam a normalização, dos quais cinco foram selecionados para análise neste trabalho: comprimento dos textos, diferenças de pontuação, omissões, repetição e substituição de colocações criativas por colocações mais comuns. Para desenvolver esta pesquisa, recorre-se a uma abordagem interdisciplinar, aliando a linguística de córpus aos estudos descritivos da tradução. Deste modo, construiu-se um córpus paralelo contendo a obra Laços de Família, de Clarice Lispector, e suas duas traduções para a língua espanhola, publicadas na Argentina (1973) e na Espanha (1988). Com base na opinião da crítica literária e nas palavras-chave obtidas através do programa WordSmith Tools, foram selecionados quatro vocábulos que serviram como nódulos em busca de colocações criativas, resultando em quinze linhas de concordância. Para confirmar se consistem ou não em colocações criativas, estas colocações foram pesquisadas nos córpus de referência, que funcionam como termo de comparação para a análise (Berber Sardinha, 2004). Posteriormente, as linhas de concordância foram contrastadas com suas traduções, para confirmar ou não a normalização. Utilizando tal metodologia, pôde-se observar que 40% das colocações criativas investigadas foram normalizadas. Por mais literal que seja a tradução (levando-se em consideração a mínima variação vocabular e da extensão do texto, conforme dados do WordSmith Tools), a normalização se mostra presente em todos os itens analisados, mesmo em línguas tão semelhantes como o português e o espanholThe present research investigates the occurrence of a translation's phenomena, called normalization, first described by Baker (1995), in the Spanish / Portuguese languages. In general, normalization is the tendency to use common characteristics of the target language in excess, minimizing the creative aspects or less common over the original. Scott (1998) proposes eleven items to characterize the normalization and five of these items were selected for analysis in this study: length of the texts, differences in scores, omission, repetition and substitution of creative collocations for more common collocations. To develop this research, we resort to an interdisciplinary approach, combining linguistic corpus to descriptive studies of translation. Thus, we constructed a parallel corpus containing the work Laços de Família of Clarice Lispector, and its two translations into Spanish, published in Argentina (1973) and Spain (1988). Based on the opinion of literary criticism and on the keywords obtained through the software WordSmith Tools, were selected four words that serve as nodes to search the creative collocations, resulting in fifteen concordance lines. To confirm whether they consist or not in creative collocations, these collocations were searched in the reference corpus, which act as a benchmark for the analysis (Berber Sardinha, 2004). Subsequently, the concordance lines were compared with their translations, to confirm or to deny the normalization. Using this methodology, it was observed that 40% of creative collocations investigated were normalized. However, much literal the translation is (considering the minimum change in vocabulary and the length of the text, according to data from WordSmith Tools), the normalization is shown in all items examined, even in languages so similar as Portuguese and Spanis

    Processamento linguístico-computacional de pacotes lexicais: um estudo de corpus na área de Regulamentação Farmacêutica

    Get PDF
    Este trabalho tem por objetivo demonstrar um aplicativo computacional desenvolvido para a extração de pacotes lexicais de três palavras e apresentar por meio deste as unidades lexicais recorrentes entre documentos de especialidade. O método quantitativo aplicado, em princípio, explora um tipo de texto produzido pelas indústrias do setor farmacêutico, o qual está diretamente relacionado a assuntos regulatórios no âmbito das agências internacionais de vigilância sanitária. No entanto, os procedimentos de análise podem ser adotados para investigar outros aspectos linguísticos dentre a variedade de gêneros e tipos textuais, como também possibilita a identificação de termos. O estudo tem como principal enfoque a frequência de ocorrência dos padrões lexicais em corpus autêntico da língua em uso por meio de ferramentas linguístico-computacionais, em particular nas pesquisas voltadas ao estudo da linguagem em contextos empresariais, e busca multiplicar os trabalhos de Douglas Biber com base na combinação de palavras recorrentes em corpora específicos. O referencial teórico- -metodológico baseia-se na Linguística de Corpus, que é capaz de dialogar, especificamente, com a Linguística Computacional e oferecer meios para o desenvolvimento do aplicativo e ao processamento dos pacotes lexicais. O corpus coletado reúne quinze exemplares do documento escrito na língua inglesa, totalizando cerca de 110 mil palavras, cuja delimitação contempla diferentes localidades do mundo, envolvendo vários autores. Os resultados desvelam a possibilidade de investigação nas divisões internas dos textos mediante o cruzamento entre documentos de uma mesma especialidade.Palavras-chave: pacotes lexicais, corpus de especialidade, ferramenta linguístico-computacional.</p

    Computational-linguistic processing of lexical bundles: A corpusbased study in the area of Pharmaceutical Regulation

    Get PDF
    Este trabalho tem por objetivo demonstrar um aplicativo computacional desenvolvido para a extração de pacotes lexicais de três palavras e apresentar por meio deste as unidades lexicais recorrentes entre documentos de especialidade. O método quantitativo aplicado, em princípio, explora um tipo de texto produzido pelas indústrias do setor farmacêutico, o qual está diretamente relacionado a assuntos regulatórios no âmbito das agências internacionais de vigilância sanitária. No entanto, os procedimentos de análise podem ser adotados para investigar outros aspectos linguísticos dentre a variedade de gêneros e tipos textuais, como também possibilita a identificação de termos. O estudo tem como principal enfoque a frequência de ocorrência dos padrões lexicais em corpus autêntico da língua em uso por meio de ferramentas linguístico-computacionais, em particular nas pesquisas voltadas ao estudo da linguagem em contextos empresariais, e busca multiplicar os trabalhos de Douglas Biber com base na combinação de palavras recorrentes em corpora específicos. O referencial teórico- -metodológico baseia-se na Linguística de Corpus, que é capaz de dialogar, especificamente, com a Linguística Computacional e oferecer meios para o desenvolvimento do aplicativo e ao processamento dos pacotes lexicais. O corpus coletado reúne quinze exemplares do documento escrito na língua inglesa, totalizando cerca de 110 mil palavras, cuja delimitação contempla diferentes localidades do mundo, envolvendo vários autores. Os resultados desvelam a possibilidade de investigação nas divisões internas dos textos mediante o cruzamento entre documentos de uma mesma especialidade.Palavras-chave: pacotes lexicais, corpus de especialidade, ferramenta linguístico-computacional.The present paper aims to demonstrate a computational tool developed to extract three-word lexical bundles and show – by working through this – the automatic recognition of recurring lexical items among regulatory documents. In this quantitative analysis a specific document prepared by pharmaceutical industries (in which the matter is directed related to the public health protection agencies) is generally examined. Nonetheless, the quantitative data collection methods can also be used to search any other linguistics features within a variety of genres and specific type of documents and it allows the linguistics researcher to easily identify which terms fall under a domain of specific texts. The study focus their main concern on investigating lexical pattern frequency of language use, particularly across the current context of business, and it seeks to spread Douglas Biber works based on recurrent word combinations that makes use of tools and techniques developed in corpus-based linguistics. As the theoretical framework for this study we primarily draw upon Corpus Linguistics, a theory that is able to connect its concepts over the computational assumptions and design tools for end users and extract the lexical bundles as well. The collected corpus gathers documents in English from fifteen different manufacturing sites of a multinational Pharmaceutical company, totaling about 110,000 words, whose limits include different writers among different geographic parts of the world. The investigation shows that it is possible to search text-internal features by the extraction of lexical bundle between data across the same specific-domain document.Keywords: lexical bundles, domain-specific corpus, linguistic-computational tool

    A Lei Anticorrupção e o Princípio da Boa-fé: desafios da ética corporativa nos contratos empresariais

    Get PDF
    A Lei Anticorrupção e o Princípio da Boa-fé: desafios da ética corporativa nos contratos empresariaisAnti-corruption Act and the Principle of Good Faith: challenges of corporate ethics in business contracts Juliana Oliveira Nascimento[1]Rosalice Fidalgo Pinheiro[2] RESUMO: O presente artigo tem por objeto a Lei nº 12.846 de 1º de agosto de 2013, denominada usualmente de "Lei Anticorrupção" e sua relação com os contratos empresariais. Ocorre que à atividade empresarial mostra-se imprescindível a criação de normas éticas internas em suas organizações e não apenas no trato com a administração pública. A “Lei Anticorrupção” encontra seus fundamentos nos princípios democrático e da moralidade administrativa, presentes na Constituição da República, enunciando seu aspecto ético. Nesta perspectiva, indaga-se se este aspecto também deve nortear os contratos de Direito Privado, notadamente, os contratos empresariais. Para tanto, recorre-se aos princípios contratuais, dentre os quais o da boa-fé consagrado pelo Código Civil de 2002. O desenvolvimento assumido por este princípio no Direito brasileiro permite delinear uma ética corporativa, como um dos mais notáveis desafios aos contratos empresariais. Para tanto, utiliza-se do método dedutivo e do procedimento de pesquisa bibliográfico, enunciando um plano de trabalho que se divide em três partes: a primeira trata da Lei n.º 12.846, de 1º de agosto de 2013 e seus fundamentos constitucionais; a segunda trata do princípio da boa-fé e a ética corporativa que dele deriva; e a terceira apresenta a ética corporativa como um novo desafio para os contratos empresariais. PALAVRAS-CHAVE: Lei Anticorrupção. Ética Corporativa. Princípio da Boa-Fé. Contratos Empresariais. ABSTRACT: The article has as its object the Act No. 12,846 of August 1, 2013, usually called "Anticorruption Act" and its relations with business contracts. It happens that to the business activity appears to be essential the creation of internal ethical standards in the organizations, and not only when dealing with the public administration. The "Anticorruption Act" finds its foundations in the democratic and in the administrative morality principles, present in the Constitution of the Republic, enunciating its ethical aspect. In this perspective, it is questioned if this aspect should also guide the private law contracts, notably, business contracts. For this purpose, it resorts to contractual principles, among which the good faith as established in the Civil Code of 2002. The remarkable development undertaken by this principle in Brazilian Law allows to outline a corporate ethics, as one of the greatest challenges to contracts business. To that end, it uses the deductive method and bibliographic research procedure, enunciating a work plan which is divided into three parts: the first deals of Act No. 12,846, August 1, 2013 and its constitutional foundations; the second deals with the principle of good faith and corporate ethics that stems from it; and the third presents the corporate ethics as a new challenge that presents itself to the business contracts. KEYWORDS: Anti-Corruption Act. Corporate Ethics. Principle of Good Faith. Business Contracts.[1] Professora da Academia Brasileira de Direito Constitucional e do Curso de Compliance Público do Instituto Arc (São Paulo). Master of Laws - International Business Law pela Steinbeis University Berlin (Alemanha) e Mestranda em Direitos Fundamentais e Democracia (Centro Universitário Autônomo do Brasil, Paraná). Advogada.[2] Professora Adjunta de Direito Civil da Faculdade de Direito da Universidade Federal do Paraná – UFPR e do curso de Mestrado do Centro Universitário Autônomo do Brasil, Paraná. Doutora em Direito das Relações Sociais (Universidade Federal do Paraná – UFPR, 2004) e estágio pós-doutoral na Université Paris 1 - Panthéon-Sorbonne

    Exploring the subtopic-based relationship map strategy for multi-document summarization

    Get PDF
    In this paper we adapt and explore strategies for generating multi-document summaries based on relationship maps, which represent texts as graphs (maps) of interrelated segments and apply different traversing techniques for producing the summaries. In particular, we focus on the Segmented Bushy Path, a sophisticated method which tries to represent in a summary the main subtopics from source texts while keeping its informativeness. In addition, we also investigate some well-known subtopic segmentation and clustering techniques in order to correctly select the most relevant information to compose the final summary. We show that this subtopic-based method outperforms other methods for multi-document summarization and that achieves state of the art results, competing with the most sophisticated deep summarization methods in the area

    Processamento de linguagem natural para indexação automática semântico-ontológica

    Get PDF
    Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.A pesquisa propõe uma arquitetura de indexação automática de documentos utilizando mecanismos de processamento de linguagem natural em nível semântico. Por meio do arranjo de ferramentas e recursos existentes, agregado ao desenvolvimento de software para integração, é construído um sistema de indexação automática que utiliza conhecimento modelado em uma ontologia para análise semântica. A aplicação da arquitetura é exemplificada e posta à prova em um conjunto de laudos periciais de crimes cibernéticos produzidos pela Perícia Criminal da Polícia Federal. Os resultados de pesquisa apontam para a melhoria que o aprofundamento à análise semântica do processamento de linguagem natural oferece para a seleção automática de descritores e, por extensão, para a recuperação da informação. Dentre as contribuições inéditas desta tese incluem-se a arquitetura de sistema de informação para indexação automática proposta, a ontologia construída para a análise semântica e as implementações em linguagem de programação Python. Por fim, o trabalho insere-se em uma área de pesquisa que tem sido cada vez mais investigada, no entanto ainda carece de resultados amadurecidos, qual seja o processamento de linguagem natural em língua portuguesa. __________________________________________________________________________ ABSTRACTThe research proposes an automatic indexing architecture of documents using natural language processing mechanisms on semantic level. By organizing existing tools and resources, added to software development for integration, an automatic indexing system which uses knowledge modeled by ontology to semantic analysis is built. The applicability of the architecture is exemplified and put into proof on forensics reports of cybercrimes produced by Federal Police Forensics Experts. The research results point to the benefits that semantic analysis on natural language processing offers to automatic descriptor selection and information retrieval. As contributions of this thesis there are the proposed automatic indexing information system architecture, the ontology built to semantic analysis and the implementations on Python programming language. Concluding, the work inserts itself in a research area that has been increasingly more investigated, however still demanding mature results, which is natural language processing on portuguese language
    corecore