3,897 research outputs found

    Detecção de Inclinação em Imagens de Documentos

    Get PDF
    A digitalização de documentos contribui para a preservação da informação evitando sua perda devido à degradação física do papel. Atualmente, Sistemas de Reconhecimento Automático de Imagens de Documentos são empregados para converter, automaticamente, a informação contida nas imagens em texto editável, de forma rápida e sem a necessidade da presença de um indivíduo. Assim, tornando essa informação pesquisável através, por exemplo, de palavras-chave.A inclinação em documentos é um problema freqüente nesses sistemas e, em geral, é  imposta durante a digitalização, quando o papel é posicionado com um ângulo diferente de zero grau sobre o eixo do scanner. No caso de documentos manuscritos, a inclinação pode surgir durante a escrita do próprio documento, principalmente quando o escritor não tem uma linha de pauta como guia. A correção da inclinação é essencial para o bom desempenho de sistemas de reconhecimento automático.Este trabalho aborda o problema da detecção de inclinação em documentos impressos e manuscritos, trazendo uma revisão dos principais métodos para detecção de inclinação divulgados na literatura até os dias atuais. As principais técnicas são expostas de forma categorizada e vantagens e limitações de cada método são discutidas

    XML na demografia histórica : anotação de registos paroquiais

    Get PDF
    O Método de Reconstituição de Paróquias, no qual os Historiadores Demógrafos do Núcleo de Estudos da População e Sociedade (NEPS) baseiam o seu trabalho para analisar o comportamento das populações ao longo dos quatro últimos séculos - através do estudo de factores como a natalidade, a fecundidade, a nupcialidade, a mortalidade e a mobilidade -, assenta na tratamento dos registos paroquiais de baptizados, casamentos e óbitos. Da leitura local e exaustiva desses documentos são extraídos os dados que permitem fazer a reconstituição das famílias. Uma vez estáveis, os dados são armazenados em Bases de Dados Paroquiais, que são posteriormente fundidas numa única Base de Dados Central sobre a qual actuam as ferramentas de análise. A norma XML (eXtensible Markup Language) define um método de anotação de documentos, estabelecendo os princípios gerais de estruturação de textos e a sintaxe das marcas a usar. Documento original e marcas formam um ficheiro único de texto ASCII puro, independente de qualquer plataforma de hardware/software. A anotação estabelece a estrutura do documento e dá interpretação a determinados elementos nele contidos, sem qualquer informação de formatação ou transformação—é, portanto, também independente da aplicação final. Ao contrário de outros sistemas de anotação, a norma XML não estabelece um conjunto de anotações fixo, para um caso específico ou para todos os casos; ao invés é uma metalinguagem que indica como definir as anotações próprias de cada família de documentos. Neste artigo é apresentada uma aplicação do XML ao domínio da Demografia, nomeadamente na Anotação dos Registos Paroquiais analisados pelos Historiadores Demógrafos. Concretamente, discute-se o desenvolvimento de um XML-Schema para definir uma instância de XML (a linguagem Schema-RP) para anotação dos Registos Paroquiais. Assim é possível construir uma Base de Dados Documental que contém, em formato electrónico, os registos originais devidamente marcados. O conteúdo desta Base de Dados apresenta-se mais rico quando comparado com as respectivas Bases de Dados Paroquiais, uma vez que permite: i) a reconstrução das fontes históricas originais, reproduzindo-as em diferentes meios, facilitando a sua disseminação; ii) a extracção dos dados necessários ao carregamento das referidas Bases de Dados Paroquiais; iii) a análise dos documentos por diversas áreas de estudo, como por exemplo, a linguística. Este artigo evidencia ainda o processo de edição anotada dos documentos e exemplifica duas transformações possíveis dos mesmos: a visualização em HTML; e a geração automática de SQL para alimentação das Bases de Dados

    Política de publicações da Embrapa Hortaliças na gestão 2004-2008.

    Get PDF
    bitstream/item/102929/1/doc-127.pd

    O tratamento normalizado do registo arqueológico : uma proposta informática

    Get PDF
    Este trabalho pretende, por um lado, ensaiar um sistema de informação que permita integrar todo o processo de investigação arqueológica, e por outro, adiantar sugestões e apontar soluções para a recolha da informação no campo, de forma normalizada, prática e eficaz. O desenvolvimento deste trabalho consiste, por isso, na conceptualização de um sistema de informação arqueológica centralizado numa base de dados convergente, a partir da qual serão alimentadas bases de dados móveis. Às bases de dados móveis será fornecida informação parcial, disponibilizada pela base de dados central. Do mesmo modo, será a partir da informação recolhida no campo, armazenada nas bases de dados móveis, que numa fase posterior se alimentará a base de dados central. Este sistema suporta o registo, o armazenamento e a exploração da informação arqueológica e garante a sua correcta ligação à cartografia, de forma a facilitar a posterior interpretação e publicação dos resultados. Paralelamente ao desenvolvimento de um sistema informático que sirva a investigação arqueológica, analisa-se de forma detalhada a informação que deve constar nos formulários para preenchimento no campo, quer durante a prospecção, quer na fase de escavação, pelo que propomos um conjunto de fichas/formulários normalizados, em suporte de papel e digital

    Núcleo de apoio ao patenteamento: manual de procedimentos.

    Get PDF
    Patentes; Busca; Redação; Formulários; Cartasbitstream/item/26301/1/DOC14-2005.pdf; bitstream/item/26303/1/DOC14-2005-anexos.pdfAcompanha folheto contendo os anexos

    REDES NEURAIS CLASSE MODULAR APLICADAS NO RECONHECIMENTO DE CARACTERES MANUSCRITOS

    Get PDF
    O reconhecimento de caracteres manuscritos ainda é um grande desafio da área de visão computacional, devido principalmente à diversidade de estilos que as pessoas podem escrever, o que dificulta generalizar o problema. Além disso, existe também a dificuldade em definir os descritores que melhor caracterizam o caractere e construir sistemas OCR de alto desempenho. Este artigo apresenta um sistema de reconhecimento de caracteres manuscritos off-line, utilizando Redes Neurais Artificiais Classe Modular com o algoritmo clássico de treinamento backpropagation, além dos métodos utilizados para a extração de características. Apesar do treinamento dos classificadores neurais exigirem muito tempo de processamento e o reconhecimento das 62 classes de caracteres, que poucos trabalhos consideram, os resultados obtidos com os experimentos se mostram muito promissores, alcançando taxas de acerto acima de 90%

    Computação e Linguística: importante diálogo para pesquisas e preservação da memória nos novos meios das antigas fontes (Computación y Lingüística: importante diálogo para investigaciones y preservación de la memoria en los nuevos medios de ...)

    Get PDF
    Neste artigo, exploramos alguns desafios atuais da pesquisa em Lingüística de Corpus, na sua vertente dedicada à História das Línguas - focalizando, particularmente, a experiência do trabalho com textos históricos da Língua Portuguesa em meio eletrônico dando notícias do trabalho que vem sendo desenvolvido na Universidade Estadual do Sudoeste da Bahia, no âmbito dos projetos: (i) Corpora Digitais Para a História do Português Brasileiro - região Sudoeste da Bahia: Aliança PHPB - Tycho Brahe (FAPESB); (ii) Novos meios para antigas fontes: sintaxe diacrônica em corpus eletrônico (UESB/FAPESB); e (iii) O Português no tempo e no espaço (FAPESP). Sustentaremos alguns caminhos que já se mostram promissores na exploração da fronteira da pesquisa representada pela união da Lingüística e da Computação

    “Espólio Ernesto de Sousa” na Biblioteca de Arte Gulbenkian

    Get PDF
    Produzidos no contexto das mais variadas áreas da sociedade, o valor patrimonial, cultural e social dos arquivos pessoais vai, progressivamente, sendo reconhecido na área da arquivística. O estudo dos arquivos pessoais revela-nos não só informação relevante para diversas áreas de estudo, como representa a evidência física da existência de um indivíduo num determinado contexto histórico e cultural. Perante uma cada vez mais consciente tentativa de normalização do tratamento dos arquivos por parte dos organismos nacionais e internacionais da arquivística, que visa facilitar a recuperação da informação, destacamos, no âmbito da presente investigação, situações que decorrem do tratamento de um arquivo pessoal de um artista que participou, ativamente, em diversas dimensões artísticas. O arquivo pessoal de Ernesto de Sousa, em parte cedido à Biblioteca de Arte da Fundação Calouste Gulbenkian, foi objeto de estudo e análise deste projeto. O presente relatório de estágio partiu do objetivo de evidenciar a metodologia de processamento do espólio Ernesto de Sousa (EES) prevista na Biblioteca de Arte, bem como do desenvolvimento de hipóteses ou propostas que visam contribuir positivamente para o processo. Por intermédio de um estudo de caso, que segue uma abordagem qualitativa de investigação, foi possível concluir que o tratamento do EES apresenta ainda espaços em aberto relativamente às orientações nacionais e internacionais, o que nos levou a enquadrar o processamento no eixo da descrição arquivística, rumo a um tratamento de passível normalização consoante as Orientações para a Descrição Arquivística (ODA). Assim, espera-se que a presente investigação possa servir o futuro da arquivística, e o futuro tratamento de arquivos pessoais de artistas particularmente, uma vez que o plano de processamento proposto no âmbito da investigação, que não segue uma linha rígida, decorre de situações reais identificadas no tratamento de um arquivo multidisciplinar. Acredita-se que estes resultados podem, nesse sentido, ser analisados e aplicados num vasto leque de arquivos pessoais e consequentemente contribuir para um agregar de conhecimento e enriquecer do património artístico nacional.Produced in the context of the most varied areas of society, the heritage, cultural and social value or personal archives is progressively recognized in the field of archival science. The study of personal archives reveals not only relevant information for different areas of study, but also represents physical evidence of the existence of an individual in a given historical and cultural context. Faced with an increasingly conscious attempt to standardize the processing of archives by national and international archival organizations, which aim to facilitate information retrieval, we highlight, within the scope of this research, situations arising from the processing of a personal archive of an artist who actively participated in various artistic dimensions. Ernesto de Sousa’s personal archive, partly donated to Biblioteca de Arte of Calouste Gulbenkian Foundation, was the object of study and analysis of this project. This internship report started from the main purpose of presenting the processing methodology for Ernesto de Sousa’s personal archive (EES), held by Biblioteca de Arte, as well as the development of hypotheses or proposals that aim to contribute positively to such process. Through a case study, which follows a qualitative research approach, it was possible to conclude that the treatment of EES still reveals open spaces regarding to the national and international guidelines, which led us to frame the processing in the axis of archival description, towards a processing that can be standardized according to the portuguese national Guidelines for Archival Description (ODA). Thus, it is expected that the present research is able to serve the future of archival science, and the future processing of artists’ personal archives in particular, since the processing planning proposed within the scope of this research, which does not follow a strict line, stems from situations identified in the treatment of a multidisciplinary archive. Is it believed that these results can, in this sense, be analyzed and applied to a wide range of personal archives and, consequently, contribute to aggregation of knowledge and to the enriching of the national artistic heritage

    Qualidade dos dados & Machine Learning : uma nova abordagem aos censos populacionais e habitacionais

    Get PDF
    Mestrado em Gestão de Sistemas de InformaçãoO projeto realizado consiste no processo de recolha e preparação de dados manuscritos em papel, da aplicação do inquérito Censo Populacional e Habitacional a uma população de mais de vinte milhões de pessoas. Este é um tipo de inquérito que se faz à população de um país, tendo como objetivo retirar conclusões a nível geográfico tanto da população, como das suas condições de vida. Os Censos são realizados com alguma frequência, o que permite efetuar comparações e perceber a transformação da sociedade e de um país, ao longo dos anos. Com o objetivo de tornar os mais de vinte milhões de inquéritos manuscritos em informação útil e de qualidade acerca de um país e de uma população foi necessário dividir o trabalho em três fases, a fase recolha de dados e da sua conversão de imagem para um formato digital onde o texto possa ser editável, a fase de limpeza e tratamento dos dados e, por último, a fase de análise e classificação dos mesmos. De acordo com cada fase, foram utilizadas diversas metodologias e tecnologias, como é o caso do OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning, respetivamente. Estas abordagens permitiram uma melhor, mais rápida e mais fiável análise de resultados.The project undertaken consists on the process of collecting and preparing paper handwritten data obtained from the Population and Housing Census survey applied to a population of over twenty million people. This type of inquiry done to the population of a country has the purpose of drawing up conclusions and insights on the populations' geographical characteristics, as well as their life conditions. These censuses are done on a frequent basis, which allows for continuous comparisons to be done and thus understand the changes occurring in a given society and country throughout time. In order to turn more than twenty million handwritten surveys into useful and quality information about a country and a population, it was necessary to divide the work into three phases. The first stage consisted on the collection of data and its conversion into an image in a digital format, where text can be edited, followed by data cleansing and transformation, and finally, the third stage involved the analysis of the data and its respective classification. In regards to the data analysis, for each sentence there were various methodologies and technologies applied, such as OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning. This approach led to a better, quicker and more reliable analysis of the data.info:eu-repo/semantics/publishedVersio

    A QUESTÃO DA RARIDADE: comentários sobre três bibliotecas de Brasília

    Get PDF
    Discute-se a questão da obra rara em diferentes contextos, com destaque para a biblioteca, enquanto instituição curadora. Autores como Moraes, Hallewell e Pinheiro, entre outros, compõem o referencial teórico utilizado na pesquisa. Embora buscando precisão, os critérios empregados na definição do documento raro admitem certa flexibilidade. São explorados os acervos raros existentes na Biblioteca Pedro Aleixo da Câmara dos Deputados, na Biblioteca Luis Viana Filho, do Senado Federal, e na Biblioteca Central, da Universidade de Brasíli
    corecore