Search CORE

123 research outputs found

Gender bias in natural language processing: BioCorpus-5, a preliminary multilingual Gender-Balanced Corpus of in-domain wikipedia biographies

Author: Dräger Philipp
Letmathe Peter
Schinner Matthias
Publication venue: Universitat Politècnica de Catalunya
Publication date: 01/01/2018
Field of study

In natural language processing and the blind application of machine learning reflect social biases and stereotypes in training data. In this project, we develop a corpus for future analysis applications of this bias. The corpus uses the data extracted by a tool called Wiki-Tailor which helps to obtain multilingual biographies from Wikipedia. The extracted multilingual corpus of biographies based on actors, linguists and physicists is analyzed, and it is balanced in gender in five languages: Spanish, Catalan, French, English and German. For that purpose, it is necessary to create a semi-automatic software divided into two parts. On the one hand, a manual alignment of the text of each biography is carried out in order to obtain five text files for each author where the information of each line is parallel for each language. On the other hand, each file is formatted in each language parallelized in xml. The xml data enters each author's information (identifier, language, genre, etc.) and is presented in a single text file to make the system simpler and more useful to process. Finally, statistics are obtained from the corpus created so it can be used in future automatic natural language processing or machine learning applications which require multilingual parallel corpus either at the level of sentence or document.En el procesado del lenguaje natural (NLP), los sistemas neurales de traducción automática y la aplicación ciega del aprendizaje automático reflejan bias en los datos de entrenamiento. En este proyecto se crea un corpus con futuras aplicaciones de análisis de este bias a partir de los datos extraídos por una herramienta llamada Wiki-Tailor, que ayuda a obtener biografías multilingües de Wikipedia. Este corpus de biografías multilingües extraídas centrada en actores, físicos y lingüistas es analizado y balanceado en cinco idiomas: castellano, catalán, francés, inglés y alemán. Para ello, es necesaria la creación de un software semiautomático dividido en dos partes. En primer lugar, se realiza una alineación manual del texto de cada biografía para obtener como resultado cinco archivos de texto para cada autor donde la información de cada línea es paralela para cada idioma. En segundo lugar, se da formato a cada archivo en cada idioma paralelizado en xml. Los datos xml entran la información de cada autor (identificador, idioma, género, etc.) y se presentan en un archivo de texto único para que el sistema sea más sencillo y útil de procesar. Finalmente se obtienen estadísticas del corpus creado para que pueda ser utilizado en futuras aplicaciones de procesamiento automático del lenguaje natural o de aprendizaje automático que requieran corpus paralelo multilingüe, ya sea a nivel de oración o de documento.En el processament del llenguatge natural (NLP), els sistemes neurals de traducció automàtica i l'aplicació de l'aprenentatge automàtic reflecteixen bias i estereotips socials a l'entrenament de dades. En aquest projecte es crea un corpus amb futures aplicacions d'anàlisi d'aquest bias a partir de les dades extretes d'una eina anomenada Wiki-Tailor, que ajuda a obtenir biografies multilingües de Wikipedia. Aquest corpus de biografies multilingües extretes centrades en actors, físics i lingüistes és analitzat i balancejat en cinc idiomes diferents: castellà, català, francès, anglès i alemany. Per la seva realització, és necessària la creació d'un software semiautomàtic dividit en dos parts. En primer lloc, es realitza un alineament manual del text de cada biografia per obtenir com a resultat cinc arxius de text per a cada autor, on la informació de cada línia és paral·lela per a cada idioma. En segon lloc, s'utilitzen les dades en xml per marcar la informació paral·lela de cada autor (identificador, idioma, gènere, etc.) i es presenten en un fitxer de text únic perquè el sistema sigui més senzill i útil de processar. Finalment s'obtenen estadístiques del corpus creat per poder ser utilitzat en futures aplicacions de processament automàtic del llenguatge natural o d'aprenentatge automàtic que requereixin corpus paral·lel multilingüe, sigui a nivell d'oració o de document

Crossref

UPCommons. Portal del coneixement obert de la UPC