16 research outputs found

    Rearranjo de genomas : uma coletanea de artigos

    Get PDF
    Orientador : João MeidanisTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Hoje em dia, estão disponíveis, publicamente, uma imensa quantidade de informações genéticas. O desafio atual da Genômica é processar estes dados de forma a obter conclusões biológicas relevantes. Uma das maneiras de estruturar estas informações é através de comparação de genomas, que busca semelhanças e diferenças entre os genomas de dois ou mais organismos. Neste contexto, a área de Rearranjo de Genomas vem recebendo bastante atenção ultimamente. Uma forma de comparar genomas é através da distância de rearranjo, determinada pelo número mínimo de eventos de rearranjo que podem explicar as diferenças entre dois genomas. Os principais estudos em distância de rearranjo envolvem eventos de reversões e transposições. A presente coletânea é composta de oito artigos, contendo vários resultados importantes sobre Rearranjo de Genomas. Estes trabalhos foram apresentados em seis conferências, sendo uma nacional e cinco internacionais. Dois destes trabalhos serão publicados em importantes revistas internacionais e outro foi incluído como um capítulo de um livro. Nossas principais contribuições podem ser divididas em dois grupos: um novo formalismo algébrico e uma série de resultados envolvendo o evento de transposição. A nova teoria algébrica relaciona a teoria de Rearranjo de Genomas com a de grupos de permutações. Nossa intenção foi estabelecer um formalismo algébrico que simplificasse a obtenção de novos resultados, até hoje, muito baseados na construção de diagramas. Estudamos o evento de transposição de várias formas. Além de apresentarmos resultados sobre a distância de transposição entre uma permutação e sua inversa, também estudamos o problema de rearranjo envolvendo transposições e reversões simultaneamente, construindo algoritmos de aproximação e estabelecendo uma conjectura sobre o diâmetro. Usamos o formalismo algébrico para mostrar que é possível determinar a distância de fusão, fissão e transposição em tempo polinomial. Este é o primeiro resultado polinomial conhecido para um problema de rearranjo envolvendo o evento de transposição. Por último, introduzimos dois novos problemas de rearranjo: o problema de distância sintênica envolvendo fusões e fissões, e o problema de transposição de prefixos. Para ambos apresentamos resultados significativos, que avançam o conhecimento na áreaAbstract: Nowadays, a huge amount of genetic information is public1y available. Genomic's current challenge is to process this information in order to obtain relevant biological conc1usions. One possible way of structuring this information is through genome comparison, where we seek similarities and differences among the genomes of two or more organisms. In this context, the area of Genome Rearrangements has received considerable attention lately. One way of comparing genomes is given by the rearrangement distance, which is determined by the minimum number of rearrangement events that explain the differences between two genomes. The main studies in rearrangement distance involve reversal and transposition events. The present collection is composed of eight artic1es, containing several important results on Genome Rearrangements. These papers were presented in six conferences, one with Brazilian scope and five with international scope. Two of these works will be published in important international journals, and one other work appeared as a book chapter. Our main contributions can be divided into two groups: a new algebraic formalism and a series of results involving the transposition event. The new algebraic theory relates the genome rearrangement theory to the theory of permutation groups. Our intention was to establish an algebraic formalism that simplifies the creation of new results, up to now excessively based on the construction of diagrams. We studied the transposition event in several ways. Besides presenting results on the transpositions distance between a permutation and its inverse, we also studied the rearrangement problem involving transpositions and reversals simultaneously, constructing approximation algorithms and proposing a conjecture on the diameter. We used the algebraic formalism to show that it is possible to determine the distance of fusion, fission, and transposition in polynomial time. This is the first polynomial time result for a rearrangement problem involving the transposition event. Finally, we introduced two now rearrangement problems: the syntenic distance problem involving fission and fusion, and the prefix transposition problem. For each one of these problems we present significant results, widening the knowledge in this areaDoutoradoDoutor em Ciência da Computaçã

    Query-driven indexing in large-scale distributed systems

    Get PDF
    Efficient and effective search in large-scale data repositories requires complex indexing solutions deployed on a large number of servers. Web search engines such as Google and Yahoo! already rely upon complex systems to be able to return relevant query results and keep processing times within the comfortable sub-second limit. Nevertheless, the exponential growth of the amount of content on the Web poses serious challenges with respect to scalability. Coping with these challenges requires novel indexing solutions that not only remain scalable but also preserve the search accuracy. In this thesis we introduce and explore the concept of query-driven indexing – an index construction strategy that uses caching techniques to adapt to the querying patterns expressed by users. We suggest to abandon the strict difference between indexing and caching, and to build a distributed indexing structure, or a distributed cache, such that it is optimized for the current query load. Our experimental and theoretical analysis shows that employing query-driven indexing is especially beneficial when the content is (geographically) distributed in a Peer-to-Peer network. In such a setting extensive bandwidth consumption has been identified as one of the major obstacles for efficient large-scale search. Our indexing mechanisms combat this problem by maintaining the query popularity statistics and by indexing (caching) intermediate query results that are requested frequently. We present several indexing strategies for processing multi-keyword and XPath queries over distributed collections of textual and XML documents respectively. Experimental evaluations show significant overall traffic reduction compared to the state-of-the-art approaches. We also study possible query-driven optimizations for Web search engine architectures. Contrary to the Peer-to-Peer setting, Web search engines use centralized caching of query results to reduce the processing load on the main index. We analyze real search engine query logs and show that the changes in query traffic that such a results cache induces fundamentally affect indexing performance. In particular, we study its impact on index pruning efficiency. We show that combination of both techniques enables efficient reduction of the query processing costs and thus is practical to use in Web search engines

    Robust question answering

    Get PDF
    Tese de Doutoramento em Informática na especialidade de Informática apresentada à Universidade AbertaUm sistema automático de pergunta resposta tem como objectivo dar uma resposta curta e precisa a uma pergunta formulada em língua natural, pesquisando uma base de conhecimento constituída por texto em língua natural. As fontes deste tipo de conhecimento são numerosas, dado que o texto escrito constitui uma forma preferencial de comunicação humana. A informação varia desde o tradicional texto editado, como é o caso das enciclopédias e dos artigos de jornal, até texto obtido através de modernos processos automáticos, como os reconhecedores automáticos de fala. O trabalho descrito no presente documento centra-se na língua Portuguesa e em sistemas de pergunta resposta de domínio aberto, o que significa que nem a pergunta nem a colecção de textos se restringem a uma área específica. Ambas as formas de texto escrito referidas no parágrafo anterior sãoo consideradas. Dado que a recuperação de informação é essencial num sistema de pergunta resposta, as técnicas mais actuais utilizadas nestas duas áreas neste tipo de sistema são objecto de um estudo aprofundado, tanto no que diz respeito aos seus aspectos mais práticos, como as suas motivações teóricas. Uma vez que um sistema nunca pode ser simples demais, desde que cumpra as especificações e produza resultados de elevada qualidade, é feita uma análise de custo benefício das técnicas passíveis de serem utilizadas, dando preferência a soluções simples. O principal objectivo do presente trabalho é assim estudar e desenvolver componentes inovadores para recuperação de informação e pergunta resposta, e a construção de um sistema de pergunta resposta completo, eficiente e robusto, capaz de competir com os sistemas mais avançados existentes actualmente. Uma opção importante tomada foi a utilização da língua Portuguesa, uma língua falada por um vasto número de pessoas, o que constitui um requisito importante para um sistema de pergunta resposta, quer pela existência de um volume importante de texto escrito disponível nesta língua, quer pelo número de possíveis utilizadores de uma aplicação específica para o Português. Há no entanto que ter em conta a existiência de menor número de recursos linguísticos para a língua Portuguesa, especialmente se comparada com a língua Inglesa, que é correntemente a "língua franca" da investigação científica. É precisamente este o motivo do presente documento estar escrito na língua Inglesa: permitir a participação nos trabalhos e a validação de resultados internacionalmente, sendo este facto totalmente compatível com a focalização do estudo e dos trabalhos na língua Portuguesa, alargando inclusivamente a sua divulgação para públicos não falantes da mesma. Na abordagem para a realização deste trabalho esta opção foi tomada em conjunto com uma outra que foi explorar as potencialidades da Wikipedia como recurso de base de QA, e que se revelou de extrema utilidade em várias vertentes do trabalho desenvolvido. As caracteristicas da Wikipedia que se consideraram mais relevantes foram o facto da informação estar disponível gratuitamente, e de resultar do esforço conjunto de um elevado número de utilizadores, o que viabiliza o desenvolvimento de aplicações para as quais seja util conhecimento enciclopédico e conhecimento de natureza ontológica. Ambas as vertentes foram utilizadas de forma inovadora no presente sistema. Apresenta-se neste trabalho o sistema de pergunta resposta, que foi desenvolvido de raiz, e que provou estar ao nível dos melhores sistemas de pergunta resposta, dado que foi submetido a avaliação em 2008 no Fórum de Avaliação Internacional CLEF (Cross Language Evaluation F orum) e se classificou em terceiro lugar entre os seis participantes concorrentes na categoria de sistemas de pergunta resposta em Português, onde era o único sistema a participar pela primeira vez. A taxa de primeiras respostas correctas foi de 32,5%. Este resultado permitiu obter o 5º lugar entre os 21 sistemas participantes nas 11 línguas disponíveis, sendo de referir o elevado nível dos sistemas concorrentes para o Português, dado que nos três primeiros lugares se classificaram dois sistemas para o Português, com o sistema da companhia Portuguesa Priberam ocupando a primeira posição com uma taxa de primeiras respostas correctas de 63,5% e o sistema da Universidade de Evora classificado em terceiro lugar, com uma taxa de primeiras respostas correctas de 46,5%. Os melhoramentos introduzidos após a análise dos resultados obtidos, que foi feita considerando quer as respostas do próprio sistema, quer as respostas produzidas pelos restantes sistemas, resultaram num considerável aumento da taxa de primeiras respostas correctas, para 50,5%, o que se seria correspondente a um segundo lugar nos resultados para o Português. O sistema desenvolvido é eficiente na indexação e resposta a perguntas, levando, na sua versão melhorada, apenas 4 horas para indexar toda a colecção de textos utilizada na tarefa do QA@CLEF 2008, e cerca de dois minutos a responder as 200 perguntas da tarefa, o que corresponde a uma média de 0,6 segundos para responder a uma pergunta. De referir que nenhum participante divulgou dados sobre a eficiência do sistema. Apenas se encontraram publicados dados de eficiência para um sistema que não participou na avaliação, que reporta valores médios de resposta por pergunta de 22 segundos. O sistema foi ainda testado num caso de estudo envolvendo perguntas efectuadas sobre o conteúdo de peças faladas. A base de textos que é pesquisada neste caso, consiste nos textos obtidos de forma automática a partir do reconhecimento automático da fala. Dado que a tarefa do Fórum de Avaliação CLEF para sistemas automáticos a responder a perguntas sobre transcrições automáticas (QAST - Question Answering over Speech Transcripts) não incluí a língua Portuguesa, os dados tiveram que ser todos recolhidos e organizados tendo sido criado um recurso que permite fazer testes de sistemas para o Português. Este recurso tem como base um corpo constituído pelos Telejornais da Rádio Televisão Portuguesa, RTP, nas suas edições da noite dos canais 1 e 2, correspondente aos meses de Junho a Setembro de 2008. Este corpo consiste em cerca de 180 horas de duração, transcritas automaticamente e enriquecidas com colocação automática de pontuação. Foi feito um conjunto de 100 perguntas, baseadas em transcrições manuais, e que foi utilizado para testar o sistema. O sistema demonstrou ser robusto, pois mesmo na presença de texto com palavras incorrectamente reconhecidas, ou pontuação colocada fora dos locais correctos, o sistema obteve 30% de taxa de primeiras respostas correctas, 42% de taxa de respostas correctas nas três primeiras respostas, e uma taxa de 60% de localização do excerto onde se encontra a resposta correcta. Este ultimo valor tem uma aplicação interessante de localização de um determinado tema num conjunto de diversas horas de vídeo, através de uma pergunta formulada em língua natural. Os resultados obtidos estão ao nível dos melhores reportados nas avaliações QAST do QA@CLEF. Dado que o principal objectivo traçado para o presente projecto de doutoramento, era estudar e desenvolver componentes inovadores de recuperação de informação e pergunta resposta que conduzissem a construção de um sistema de pergunta resposta para o Português, completo eficiente e robusto, e com resultados ao nível dos melhores sistemas, considera-se que o objectivo foi plenamente atingido. Relativamente ao uso do Português como língua de trabalho, confirma-se o facto de que os resultados obtidos para esta língua na área de sistemas de pergunta resposta estão ao melhor nível dos sistemas actuais para outras línguas, provando-se ser possível ultrapassar o problema de escassez de recursos. Os resultados validam também o conceito da existência de corpus onde coexistem textos com origem em distintas variantes de Português, nomeadamente Europeia e Brasileira, mas não só. No que diz respeito a língua falada, os resultados obtidos no caso de estudo indicam uma necessidade de tratamento específico para estas duas diferentes variantes do Português.A Question Answering (QA) system should provide a short and precise answer to a question in natural language, by searching a large knowledge base consisting of natural language text. The sources of the knowledge base are widely available, for written natural language text is a preferential form of human communication. The information ranges from the more traditional edited texts, for example encyclopaedias or newspaper articles, to text obtained by modern automatic processes, as automatic speech recognizers. The work described in the present document focuses on the Portuguese language and open domain question answering, meaning that neither the questions nor the texts are restricted to a speci c area, and it aims to address both types of written text. Since information retrieval is essential for a QA system, a careful analysis of the current state-of-the-art in information retrieval and question answering components is conducted. A complete, e cient and robust question answering system is developed in this thesis, consisting of new modules for information retrieval and question answering, that is competitive with current QA systems. The system was evaluated at the Portuguese monolingual task of QA@CLEF 2008 and achieved the 3rd place in 6 Portuguese participants and 5th place among the 21 participants of 11 languages. The system was also tested in Question Answering over Speech Transcripts (QAST), but outside the o cial evaluation QAST of QA@CLEF, since Portuguese was not among the available languages for this task. For that reason, an entire test environment consisting of a corpus of transcribed broadcast news and a matching question set was built in the scope of this work, so that experiments could be made. The system proved to be robust in the presence of automatically transcribed data, with results in line with the best reported at QAST

    Anales del XIII Congreso Argentino de Ciencias de la Computación (CACIC)

    Get PDF
    Contenido: Arquitecturas de computadoras Sistemas embebidos Arquitecturas orientadas a servicios (SOA) Redes de comunicaciones Redes heterogéneas Redes de Avanzada Redes inalámbricas Redes móviles Redes activas Administración y monitoreo de redes y servicios Calidad de Servicio (QoS, SLAs) Seguridad informática y autenticación, privacidad Infraestructura para firma digital y certificados digitales Análisis y detección de vulnerabilidades Sistemas operativos Sistemas P2P Middleware Infraestructura para grid Servicios de integración (Web Services o .Net)Red de Universidades con Carreras en Informática (RedUNCI

    Anales del XIII Congreso Argentino de Ciencias de la Computación (CACIC)

    Get PDF
    Contenido: Arquitecturas de computadoras Sistemas embebidos Arquitecturas orientadas a servicios (SOA) Redes de comunicaciones Redes heterogéneas Redes de Avanzada Redes inalámbricas Redes móviles Redes activas Administración y monitoreo de redes y servicios Calidad de Servicio (QoS, SLAs) Seguridad informática y autenticación, privacidad Infraestructura para firma digital y certificados digitales Análisis y detección de vulnerabilidades Sistemas operativos Sistemas P2P Middleware Infraestructura para grid Servicios de integración (Web Services o .Net)Red de Universidades con Carreras en Informática (RedUNCI

    WICC 2017 : XIX Workshop de Investigadores en Ciencias de la Computación

    Get PDF
    Actas del XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017), realizado en el Instituto Tecnológico de Buenos Aires (ITBA), el 27 y 28 de abril de 2017.Red de Universidades con Carreras en Informática (RedUNCI

    WICC 2016 : XVIII Workshop de Investigadores en Ciencias de la Computación

    Get PDF
    Actas del XVIII Workshop de Investigadores en Ciencias de la Computación (WICC 2016), realizado en la Universidad Nacional de Entre Ríos, el 14 y 15 de abril de 2016.Red de Universidades con Carreras en Informática (RedUNCI

    Actas del XXIV Workshop de Investigadores en Ciencias de la Computación: WICC 2022

    Get PDF
    Compilación de las ponencias presentadas en el XXIV Workshop de Investigadores en Ciencias de la Computación (WICC), llevado a cabo en Mendoza en abril de 2022.Red de Universidades con Carreras en Informátic
    corecore