75 research outputs found

    A bimodal crowdsourcing platform for demographic historical manuscripts

    Get PDF
    Ponència presentada al First International Conference on Digital Access to Textual Cultural Heritage celebrada del 19 al 20 de maig de 2014 a MadridIn this paper we present a crowdsourcing web-based application for extracting information from demographic handwritten document images. The proposed application integrates two points of view: the semantic information for demographic research, and the ground-truthing for document analysis research. Concretely, the application has the contents view, where the information is recorded into forms, and the labeling view, with the word labels for evaluating document analysis techniques. The crowdsourcing architecture allows to accelerate the information extraction (many users can work simultaneously), validate the information, and easily provide feedback to the users. We finally show how the proposed application can be extended to other kind of demographic historical manuscripts

    Advances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and Crowdsourcing

    Full text link
    Natural Language Processing (NLP) is an interdisciplinary research field of Computer Science, Linguistics, and Pattern Recognition that studies, among others, the use of human natural languages in Human-Computer Interaction (HCI). Most of NLP research tasks can be applied for solving real-world problems. This is the case of natural language recognition and natural language translation, that can be used for building automatic systems for document transcription and document translation. Regarding digitalised handwritten text documents, transcription is used to obtain an easy digital access to the contents, since simple image digitalisation only provides, in most cases, search by image and not by linguistic contents (keywords, expressions, syntactic or semantic categories). Transcription is even more important in historical manuscripts, since most of these documents are unique and the preservation of their contents is crucial for cultural and historical reasons. The transcription of historical manuscripts is usually done by paleographers, who are experts on ancient script and vocabulary. Recently, Handwritten Text Recognition (HTR) has become a common tool for assisting paleographers in their task, by providing a draft transcription that they may amend with more or less sophisticated methods. This draft transcription is useful when it presents an error rate low enough to make the amending process more comfortable than a complete transcription from scratch. Thus, obtaining a draft transcription with an acceptable low error rate is crucial to have this NLP technology incorporated into the transcription process. The work described in this thesis is focused on the improvement of the draft transcription offered by an HTR system, with the aim of reducing the effort made by paleographers for obtaining the actual transcription on digitalised historical manuscripts. This problem is faced from three different, but complementary, scenarios: · Multimodality: The use of HTR systems allow paleographers to speed up the manual transcription process, since they are able to correct on a draft transcription. Another alternative is to obtain the draft transcription by dictating the contents to an Automatic Speech Recognition (ASR) system. When both sources (image and speech) are available, a multimodal combination is possible and an iterative process can be used in order to refine the final hypothesis. · Interactivity: The use of assistive technologies in the transcription process allows one to reduce the time and human effort required for obtaining the actual transcription, given that the assistive system and the palaeographer cooperate to generate a perfect transcription. Multimodal feedback can be used to provide the assistive system with additional sources of information by using signals that represent the whole same sequence of words to transcribe (e.g. a text image, and the speech of the dictation of the contents of this text image), or that represent just a word or character to correct (e.g. an on-line handwritten word). · Crowdsourcing: Open distributed collaboration emerges as a powerful tool for massive transcription at a relatively low cost, since the paleographer supervision effort may be dramatically reduced. Multimodal combination allows one to use the speech dictation of handwritten text lines in a multimodal crowdsourcing platform, where collaborators may provide their speech by using their own mobile device instead of using desktop or laptop computers, which makes it possible to recruit more collaborators.El Procesamiento del Lenguaje Natural (PLN) es un campo de investigación interdisciplinar de las Ciencias de la Computación, Lingüística y Reconocimiento de Patrones que estudia, entre otros, el uso del lenguaje natural humano en la interacción Hombre-Máquina. La mayoría de las tareas de investigación del PLN se pueden aplicar para resolver problemas del mundo real. Este es el caso del reconocimiento y la traducción del lenguaje natural, que se pueden utilizar para construir sistemas automáticos para la transcripción y traducción de documentos. En cuanto a los documentos manuscritos digitalizados, la transcripción se utiliza para facilitar el acceso digital a los contenidos, ya que la simple digitalización de imágenes sólo proporciona, en la mayoría de los casos, la búsqueda por imagen y no por contenidos lingüísticos. La transcripción es aún más importante en el caso de los manuscritos históricos, ya que la mayoría de estos documentos son únicos y la preservación de su contenido es crucial por razones culturales e históricas. La transcripción de manuscritos históricos suele ser realizada por paleógrafos, que son personas expertas en escritura y vocabulario antiguos. Recientemente, los sistemas de Reconocimiento de Escritura (RES) se han convertido en una herramienta común para ayudar a los paleógrafos en su tarea, la cual proporciona un borrador de la transcripción que los paleógrafos pueden corregir con métodos más o menos sofisticados. Este borrador de transcripción es útil cuando presenta una tasa de error suficientemente reducida para que el proceso de corrección sea más cómodo que una completa transcripción desde cero. Por lo tanto, la obtención de un borrador de transcripción con una baja tasa de error es crucial para que esta tecnología de PLN sea incorporada en el proceso de transcripción. El trabajo descrito en esta tesis se centra en la mejora del borrador de transcripción ofrecido por un sistema RES, con el objetivo de reducir el esfuerzo realizado por los paleógrafos para obtener la transcripción de manuscritos históricos digitalizados. Este problema se enfrenta a partir de tres escenarios diferentes, pero complementarios: · Multimodalidad: El uso de sistemas RES permite a los paleógrafos acelerar el proceso de transcripción manual, ya que son capaces de corregir en un borrador de la transcripción. Otra alternativa es obtener el borrador de la transcripción dictando el contenido a un sistema de Reconocimiento Automático de Habla. Cuando ambas fuentes están disponibles, una combinación multimodal de las mismas es posible y se puede realizar un proceso iterativo para refinar la hipótesis final. · Interactividad: El uso de tecnologías asistenciales en el proceso de transcripción permite reducir el tiempo y el esfuerzo humano requeridos para obtener la transcripción correcta, gracias a la cooperación entre el sistema asistencial y el paleógrafo para obtener la transcripción perfecta. La realimentación multimodal se puede utilizar en el sistema asistencial para proporcionar otras fuentes de información adicionales con señales que representen la misma secuencia de palabras a transcribir (por ejemplo, una imagen de texto, o la señal de habla del dictado del contenido de dicha imagen de texto), o señales que representen sólo una palabra o carácter a corregir (por ejemplo, una palabra manuscrita mediante una pantalla táctil). · Crowdsourcing: La colaboración distribuida y abierta surge como una poderosa herramienta para la transcripción masiva a un costo relativamente bajo, ya que el esfuerzo de supervisión de los paleógrafos puede ser drásticamente reducido. La combinación multimodal permite utilizar el dictado del contenido de líneas de texto manuscrito en una plataforma de crowdsourcing multimodal, donde los colaboradores pueden proporcionar las muestras de habla utilizando su propio dispositivo móvil en lugar de usar ordenadores,El Processament del Llenguatge Natural (PLN) és un camp de recerca interdisciplinar de les Ciències de la Computació, la Lingüística i el Reconeixement de Patrons que estudia, entre d'altres, l'ús del llenguatge natural humà en la interacció Home-Màquina. La majoria de les tasques de recerca del PLN es poden aplicar per resoldre problemes del món real. Aquest és el cas del reconeixement i la traducció del llenguatge natural, que es poden utilitzar per construir sistemes automàtics per a la transcripció i traducció de documents. Quant als documents manuscrits digitalitzats, la transcripció s'utilitza per facilitar l'accés digital als continguts, ja que la simple digitalització d'imatges només proporciona, en la majoria dels casos, la cerca per imatge i no per continguts lingüístics (paraules clau, expressions, categories sintàctiques o semàntiques). La transcripció és encara més important en el cas dels manuscrits històrics, ja que la majoria d'aquests documents són únics i la preservació del seu contingut és crucial per raons culturals i històriques. La transcripció de manuscrits històrics sol ser realitzada per paleògrafs, els quals són persones expertes en escriptura i vocabulari antics. Recentment, els sistemes de Reconeixement d'Escriptura (RES) s'han convertit en una eina comuna per ajudar els paleògrafs en la seua tasca, la qual proporciona un esborrany de la transcripció que els paleògrafs poden esmenar amb mètodes més o menys sofisticats. Aquest esborrany de transcripció és útil quan presenta una taxa d'error prou reduïda perquè el procés de correcció siga més còmode que una completa transcripció des de zero. Per tant, l'obtenció d'un esborrany de transcripció amb un baixa taxa d'error és crucial perquè aquesta tecnologia del PLN siga incorporada en el procés de transcripció. El treball descrit en aquesta tesi se centra en la millora de l'esborrany de la transcripció ofert per un sistema RES, amb l'objectiu de reduir l'esforç realitzat pels paleògrafs per obtenir la transcripció de manuscrits històrics digitalitzats. Aquest problema s'enfronta a partir de tres escenaris diferents, però complementaris: · Multimodalitat: L'ús de sistemes RES permet als paleògrafs accelerar el procés de transcripció manual, ja que són capaços de corregir un esborrany de la transcripció. Una altra alternativa és obtenir l'esborrany de la transcripció dictant el contingut a un sistema de Reconeixement Automàtic de la Parla. Quan les dues fonts (imatge i parla) estan disponibles, una combinació multimodal és possible i es pot realitzar un procés iteratiu per refinar la hipòtesi final. · Interactivitat: L'ús de tecnologies assistencials en el procés de transcripció permet reduir el temps i l'esforç humà requerits per obtenir la transcripció real, gràcies a la cooperació entre el sistema assistencial i el paleògraf per obtenir la transcripció perfecta. La realimentació multimodal es pot utilitzar en el sistema assistencial per proporcionar fonts d'informació addicionals amb senyals que representen la mateixa seqüencia de paraules a transcriure (per exemple, una imatge de text, o el senyal de parla del dictat del contingut d'aquesta imatge de text), o senyals que representen només una paraula o caràcter a corregir (per exemple, una paraula manuscrita mitjançant una pantalla tàctil). · Crowdsourcing: La col·laboració distribuïda i oberta sorgeix com una poderosa eina per a la transcripció massiva a un cost relativament baix, ja que l'esforç de supervisió dels paleògrafs pot ser reduït dràsticament. La combinació multimodal permet utilitzar el dictat del contingut de línies de text manuscrit en una plataforma de crowdsourcing multimodal, on els col·laboradors poden proporcionar les mostres de parla utilitzant el seu propi dispositiu mòbil en lloc d'utilitzar ordinadors d'escriptori o portàtils, la qual cosa permet ampliar el nombrGranell Romero, E. (2017). Advances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and Crowdsourcing [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86137TESI

    Transcription of manuscrits with image processing techniques and gamesourcing

    Get PDF
    Information inside the historical documents can provide us knowledge about the evolution of the past. In local censuses, there are names that appear the 80% of times. The transcription process could be accelerated doing a massive transcription of frequent names. In this work we propose to use clustering methods and validate them via gamesourcing. The validation is needed because the performance of image processing techniques is still far from satisfactory. Several experiments are performed showing the viability of the massive transcription through clustering methods and the gamesourcing application for validation.La información contenida en los documentos históricos puede ayudarnos a comprender el pasado. En los censos locales, hay nombres que aparecen el 80\% de las veces. El proceso de transcripción puede ser acelerado realizando una transcripción masiva d'estos nombres frecuentes. En este trabajo proponemos utilizar métodos de clustering y validarlos con gamesourcing. La validación es necesaria ya que el rendimiento de estas técnicas aun no llegan a ser satisfactorias. Varias pruebas fueron realizados y todas indican la viabilidad de la transcripción masiva con métodos de clustering y validación mediante gamesourcing.La informació continguda en els documents històrics ens pot ajudar a comprendre el pasat. En censos locals, hi ha noms que apareixen el 80% dels cops. El procés de transcripció es pot accel·lerar fent una transcripció massiva d'aquests noms freqüents. En aquest treball proposem utilitzar mètodes de clustering i validar-los amb gamesourcing. La validació es necessària ja que el rendiment d'aquestes tècniques encara no arriben a ser satisfactories. Varies proves s'han realitzat i totes indiquen la viabilitat de la transcripció massiva amb mètodes de clustering i validació via gamesourcing

    Kin Marriages in 19th Century Catalonia (with Reference to Findings from the Barcelona Historical Marriage Database)

    Full text link
    Submitted on 22 November, 2017. Accepted on 17 September.Поступила в редакцию 22.11.2017. Принята к печати 17.09.2018.В 1215 г. IV Латеранский собор запретил браки между родственниками до четвертого уровня родства и второго уровня близости. Эта норма была действительна до начала XX в. Несмотря на запрет, кровосмесительные и родственные браки не были редкостью, а в XIX в. стали заключаться еще чаще в разных странах. Это происходило на фоне демографического перехода, индустриализации и миграций из сельской местности в города, что благоприятствовало экзогамным бракам. Демографические факторы, обусловившие рост родственных браков, могли быть связаны с наличием большого числа родственников среди потенциальных женихов и невест из-за снижения смертности и роста числа достигших возраста вступления в брак. Миграция в города, развитие капитализма в аграрном секторе вызвали перераспределение собственности на землю, в ответ на что создавались новые внутрисемейные альянсы ради сохранения контроля за земельной собственностью и рабочей силой. В то же время изменение гражданско-правовых положений о передаче имущества способствовало созданию новой концепции взаимоотношений между братьями и сестрами, являющимися не только кровными родственниками, но и независимыми людьми. Более того, стало возможным создание брачных отношений между родственниками в обход церковных предписаний. Так стали практиковаться одновременные (т. е. совершенные в один день) браки овдовевших родителей и их детей, а также одновременные браки между двумя и более детьми из двух семей. При заключении нескольких браков в один день, женихи и невесты не состояли еще в формальном родстве, и их союзы не рассматривались церковным законом как кровосмесительные. Родственные браки в виде исключения допускались законом. Angustia loci допускал брак между родственниками, если супруги жили в деревне с населением менее 1 500 жителей или менее 300 семей. Другим распространенным исключением было Aetas superadulta, который позволял женщинам выйти замуж за родственника в случае, если им по достижении возраста 25 лет не удалось найти себе мужа. Отсутствие приданого, как и риска действительного инцеста также открывали возможность для заключения родственного брака. Данное исследование посвящено бракам, заключенным между родственниками в Барселоне и ее окрестностях на протяжении XIX в. В качестве источника использована информация, содержащаяся в недавно созданной Барселонской исторической базе данных о браке (Barcelona Historical Marriage Database, BHMD). В зависимости от различных факторов, союзы между родственниками могли быть разного типа. Мы рассмотрим два из них: 1) одновременные браки двух и более пар братьев и/или сестер; 2) браки вдовцов и вдов с сестрой / братом их умерших супругов (сорорат и левират).In 1215, the Fourth Lateran Council forbid marriages among relatives up to the fourth level of consanguinity and second level of affinity. This norm was valid until the early 20th century. It is striking that, in spite of the strength and persistence of the prohibition, consanguineous and affine marriages were not uncommon, and their frequency even increased during the 19th century in some countries. This occurred when the demographic transition, industrialisation, and migration from the countryside to the cities favoured exogamous marriages. The demographic factors causing the rise of kinship marriages could be related to the presence of more relatives in the marriage market due to more persons reaching marriageable ages. Migration to the cities and agrarian capitalism contributed to restructuring land ownership, generating new family alliances in order to obtain more control over the land and to increase the workforce of the households. Together with that, the secularisation of civil regulations about inheritance changed the conception of relationships among brothers and sisters, who were now considered independent persons and not only of the ‘same blood’. Moreover, the blood relatives of the spouse were now considered legal marriage candidates, when developing strategies to follow the ecclesiastical prescriptions. Kinship marriages were also possible because specific exceptions were allowed. The most frequent one was the so-called angustia loci, which permitted a kin marriage when the couple was living in a village with fewer than 1,500 inhabitants or fewer than 300 families. Another common exception was the aetas superadulta, which allowed women aged between 25 and 50 years to marry a relative in case they had not found a husband previously, moreover, the lack of dowry or the risk of incest were also considered reasons for a marriage within the family. This research specifically focuses on affinity in the Barcelona area during the 19th century, using the information contained in the recently created Barcelona Historical Marriage Database (BHMD). Responding to strategies or to simple adaptations, unions among in-laws could adopt several forms. The authors explore two such forms: 1) simultaneous marriages of two or more couples of siblings; 2) marriages of widowers or widows with the sister or brother of their deceased spouses (levirate and sororate)

    Феномен родственных браков в Каталонии в XIX в. (по материалам исторической базы данных Барселоны)

    Get PDF
    In 1215, the Fourth Lateran Council forbid marriages among relatives up to the fourth level of consanguinity and second level of affinity. This norm was valid until the early 20th century. It is striking that, in spite of the strength and persistence of the prohibition, consanguineous and affine marriages were not uncommon, and their frequency even increased during the 19th century in some countries. This occurred when the demographic transition, industrialisation, and migration from the countryside to the cities favoured exogamous marriages. The demographic factors causing the rise of kinship marriages could be related to the presence of more relatives in the marriage market due to more persons reaching marriageable ages. Migration to the cities and agra­rian capitalism contributed to restructuring land ownership, generating new family alliances in order to obtain more control over the land and to increase the workforce of the households. Together with that, the secularisation of civil regulations about inheritance changed the conception of relationships among brothers and sisters, who were now considered independent persons and not only of the ‘same blood’. Moreover, the blood relatives of the spouse were now considered legal marriage candidates, when developing strategies to follow the ecclesiastical prescriptions.Kinship marriages were also possible because specific exceptions were allowed. The most frequent one was the so-called angustia loci, which permitted a kin marriage when the couple was living in a village with fewer than 1,500 inhabitants or fewer than 300 families. Another common exception was the aetas superadulta, which allowed women aged between 25 and 50 years to marry a relative in case they had not found a husband previously, moreover, the lack of dowry or the risk of incest were also considered reasons for a marriage within the family.This research specifically focuses on affinity in the Barcelona area during the 19th century, using the information contained in the recently created Barcelona Historical Marriage Database (BHMD). Responding to strategies or to simple adaptations, unions among in-laws could adopt several forms. The authors explore two such forms: 1) simultaneous marriages of two or more couples of siblings; 2) marriages of widowers or widows with the sister or brother of their deceased spouses (levirate and sororate).В 1215 г. IV Латеранский собор запретил браки между родственниками до четвертого уровня родства и второго уровня близости. Эта норма была действительна до начала XX в. Несмотря на запрет, кровосмесительные и родственные браки не были редкостью, а в XIX в. стали заключаться еще чаще в разных странах. Это происходило на фоне демографического перехода, индустриализации и миграций из сельской местности в города, что благоприятствовало экзогамным бракам. Демографические факторы, обусловившие рост родственных браков, могли быть связаны с наличием большого числа родственников среди потенциальных женихов и невест из-за снижения смертности и роста числа достигших возраста вступления в брак. Миграция в города, развитие капитализма в аграрном секторе вызвали перераспределение собственности на землю, в ответ на что создавались новые внутрисемейные альянсы ради сохранения контроля за земельной собственностью и рабочей силой. В то же время изменение гражданско-правовых положений о передаче имущества способствовало созданию новой концепции взаимоотношений между братьями и сестрами, являющимися не только кровными родственниками, но и независимыми людьми. Более того, стало возможным создание брачных отношений между родственниками в обход церковных предписаний. Так стали практиковаться одновременные (т. е. совершенные в один день) браки овдовевших родителей и их детей, а также одновременные браки между двумя и более детьми из двух семей. При заключении нескольких браков в один день, женихи и невесты не состояли еще в формальном родстве, и их союзы не рассматривались церковным законом как кровосмесительные.Родственные браки в виде исключения допускались законом. Angustia loci допускал брак между родственниками, если супруги жили в деревне с населением менее 1 500 жителей или менее 300 семей. Другим распространенным исключением было Aetas superadulta, который позволял женщинам выйти замуж за родственника в случае, если им по достижении возраста 25 лет не удалось найти себе мужа. Отсутствие приданого, как и риска действительного инцеста также открывали возможность для заключения родственного брака.Данное исследование посвящено бракам, заключенным между родственниками в Барселоне и ее окрестностях на протяжении XIX в. В качестве источника использована информация, содержащаяся в недавно созданной Барселонской исторической базе данных о браке (Barcelona Historical Marriage Database, BHMD). В зависимости от различных факторов, союзы между родственниками могли быть разного типа. Мы рассмотрим два из них: 1) одновременные браки двух и более пар братьев и/или сестер; 2) браки вдовцов и вдов с сестрой / братом их умерших супругов (сорорат и левират)

    Textual Assemblages and Transmission: Unified models for (Digital) Scholarly Editions and Text Digitisation

    Get PDF
    Scholarly editing and textual digitisation are typically seen as two distinct, though related, fields. Scholarly editing is replete with traditions and codified practices, while the digitisation of text-bearing material is a recent enterprise, governed more by practice than theory. From the perspective of scholarly editing, the mere digitisation of text is a world away from the intellectual engagement and rigour on which textual scholarship is founded. Recent developments have led to a more open-minded perspective. As scholarly editing has made increasing use of the digital medium, and textual digitisation begins to make use of scholarly editing tools and techniques, the more obvious distinctions dissolve. Such criteria as ‘critical engagement’ become insufficient grounds on which to base a clear distinction. However, this perspective is not without its risks either. It perpetuates the idea that a (digital) scholarly edition and a digitised text are interchangeable. This thesis argues that a real distinction can be drawn. It starts by considering scholarly editing and textual digitisation as textual transmissions. Starting from the ontological perspective of Deleuze and Guattari, it builds a framework capable for considering the processes behind scholarly editing and digitisation. In doing so, it uncovers a number of critical distinction. Scholarly editing creates a regime of representation that is self-consistent and self-validating. Textual digitisation does not. In the final chapters, this thesis uses the crowd-sourced Letters of 1916 project as a test-case for a new conceptualisation of a scholarly edition: one that is neither globally self-consistent nor self-validating, but which provides a conceptual model in which these absences might be mitigated against and the function of a scholarly edition fulfilled

    The Future of Information Sciences : INFuture2013 : Information Governance

    Get PDF

    Cultural Heritage Storytelling, Engagement and Management in the Era of Big Data and the Semantic Web

    Get PDF
    The current Special Issue launched with the aim of further enlightening important CH areas, inviting researchers to submit original/featured multidisciplinary research works related to heritage crowdsourcing, documentation, management, authoring, storytelling, and dissemination. Audience engagement is considered very important at both sites of the CH production–consumption chain (i.e., push and pull ends). At the same time, sustainability factors are placed at the center of the envisioned analysis. A total of eleven (11) contributions were finally published within this Special Issue, enlightening various aspects of contemporary heritage strategies placed in today’s ubiquitous society. The finally published papers are related but not limited to the following multidisciplinary topics:Digital storytelling for cultural heritage;Audience engagement in cultural heritage;Sustainability impact indicators of cultural heritage;Cultural heritage digitization, organization, and management;Collaborative cultural heritage archiving, dissemination, and management;Cultural heritage communication and education for sustainable development;Semantic services of cultural heritage;Big data of cultural heritage;Smart systems for Historical cities – smart cities;Smart systems for cultural heritage sustainability
    corecore