2 research outputs found

    O processo de edição filológica de documentos utilizando o software eDictor

    Get PDF
    Starting from the discussion about the so-called Digital Humanities, we want, in this paper, to show how the Women in Portuguese America Project (MAP in Portuguese) fits into this field by working with the digital diffusion of documents written by women or referring to women between 1500-1822. When we search for these documents (of various types, such as letters, inquisitorial processes, requirements, etc.) in archives with digital catalogs (such as the Public Archive of the State of São Paulo), as well as archives with a large digitized collection (such as the National Archives of Torre do Tombo de Lisboa), we noticed the lack of a search key that would select them according to the presence of the woman as author or referee. Thus, drawing on the documents already available in these and other collections providing digital reproductions of the documents, MAP proposes the construction of its own catalog, which has been digitally built in XML language. Therefore, we are forming a corpus, bringing together these women authors or referred. So that we can build a catalog with this theme, we are preparing transcriptions and philological editions of these documents. Considering that the purpose is to democratize access by making such writings available online, we use the eDictor software, which consists of a text editor for philological work and which allows linguistic analysis. In addition, it is possible to elaborate modernized editions of manuscripts without losing the relevant philological information of the original text. The development and use of digital technologies such as eDictor, by the MAP Project, are part of the tendency of the humanities to approach the computer sciences. From the results we have obtained, we can say that the use of eDictor favors the quality of the philological editing of manuscripts and allows researchers from various areas and a wider public to access these documents. These advantages give us the perspective of intensifying the use and improvement of the software, in order to expand the possibilities of text corpora construction. Thus, in MAP, digital resources are considered as both applied tools and products, i.e. resources generated by the project.A partir de la discusión sobre las llamadas Humanidades Digitales queremos, en este trabajo, mostrar cómo el Proyecto Mujeres en América Portuguesa (MAP) encaja en este campo pues trabaja con la difusión, en el medio digital, de documentos escritos por mujeres o que se refieren a mujeres entre 1500-1822. Al buscar estos documentos (de diferentes tipos, como cartas, procesos inquisitoriales, requisitos, etc.) en archivos con catálogos digitales (como el Archivo Público del Estado de São Paulo), así como en archivos con una gran colección digitalizada (como el Archivo Nacional de Torre do Tombo de Lisboa), notamos la falta de una clave de búsqueda que los seleccionara de acuerdo con la presencia de la mujer como autora o referida. Por lo tanto, utilizando los documentos ya disponibles en estas y otras colecciones que proporcionan reproducciones digitales de los documentos, MAP propone la construcción de su propio catálogo, que ha sido construido digitalmente en lenguaje XML. Entonces, estamos formando un corpus, reuniendo a estas mujeres autoras o referidas. Para poder construir un catálogo con este tema, estamos preparando transcripciones y ediciones filológicas de estos documentos. Teniendo en cuenta que el objetivo es democratizar el acceso de modo que tales escritos estén disponibles en línea, utilizamos el software eDictor, el cual consiste en un editor de texto para el trabajo filológico y permite el análisis lingüístico. Además, es posible preparar ediciones modernizadas de manuscritos, sin perder la información filológica relevante del texto original. El desarrollo y uso de tecnologías digitales como eDictor, por el Proyecto MAP, son parte de la tendencia de acercar las humanidades a las ciencias de la computación. De los resultados que hemos obtenido, podemos decir que el uso de eDictor favorece la calidad de la edición filológica de los manuscritos y permite el acceso de investigadores de diferentes áreas y una audiencia más amplia a estos documentos. Estas ventajas nos han dado la perspectiva de intensificar el uso y la mejora del software, a fin de ampliar las posibilidades de crear corpus de texto. Por lo tanto, en M.A.P., los recursos digitales se consideran tanto herramientas aplicadas como productos, es decir, recursos generados por el proyecto.Partindo da discussão sobre as chamadas Humanidades Digitais, queremos, neste trabalho, mostrar como o Projeto Mulheres na América Portuguesa (MAP) se insere nesse campo ao trabalhar com a difusão, no meio digital, de documentos escritos por mulheres ou que se referem a mulheres entre 1500-1822. Ao buscarmos esses documentos (de diversas tipologias, como cartas, processos inquisitoriais, requerimentos etc.) em arquivos com catálogos digitais (como o Arquivo Público do Estado de São Paulo), bem como em arquivos com amplo acervo digitalizado (como  o Arquivo Nacional da Torre do Tombo de Lisboa), percebemos a inexistência de uma chave de busca que os selecionasse de acordo com a presença da mulher como autora ou referida. Assim, valendo-se dos documentos já disponíveis nesses e em outros acervos que disponibilizam reproduções digitais dos documentos, o MAP propõe a construção de um catálogo próprio, o qual vem sendo construído digitalmente em linguagem XML. Portanto, estamos formando um corpus, reunindo essas mulheres autoras ou referidas. Para que possamos construir um catálogo com essa temática, estamos preparando transcrições e edições filológicas desses documentos. Considerando que o intuito é democratizar o acesso ao disponibilizar online tais escritos, usamos o software eDictor, que consiste em um editor de textos destinado ao trabalho filológico e que permite a realização de análises linguísticas. Além disso, é possível  elaborar edições modernizadas de manuscritos, sem que se percam as informações filológicas relevantes do texto original. O desenvolvimento e a utilização de tecnologias digitais como o eDictor, pelo Projeto M.A.P., se inserem na tendência de aproximação das humanidades com as ciências computacionais. A partir dos resultados que temos obtido, podemos afirmar que o uso do eDictor favorece a qualidade da edição filológica dos manuscritos e possibilita o acesso de pesquisadores de diversas áreas e de um público mais amplo a esses documentos. Essas vantagens nos dão a perspectiva de intensificação do uso e aprimoramento do software, de modo a ampliar as possibilidades de construção de corpora de textos. Dessa forma, no MAP, os recursos digitais são considerados tanto como ferramentas aplicadas quanto como produtos, ou seja, recursos gerados pelo projeto

    Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information

    Full text link
    This paper presents the first publicly available version of the Carolina Corpus and discusses its future directions. Carolina is a large open corpus of Brazilian Portuguese texts under construction using web-as-corpus methodology enhanced with provenance, typology, versioning, and text integrality. The corpus aims at being used both as a reliable source for research in Linguistics and as an important resource for Computer Science research on language models, contributing towards removing Portuguese from the set of low-resource languages. Here we present the construction of the corpus methodology, comparing it with other existing methodologies, as well as the corpus current state: Carolina's first public version has 653,322,577653,322,577 tokens, distributed over 77 broad types. Each text is annotated with several different metadata categories in its header, which we developed using TEI annotation standards. We also present ongoing derivative works and invite NLP researchers to contribute with their own.Comment: 14 pages, 3 figures, 1 appendi
    corecore