126 research outputs found
Gender bias in natural language processing: BioCorpus-5, a preliminary multilingual Gender-Balanced Corpus of in-domain wikipedia biographies
In natural language processing and the blind application of machine learning reflect social biases and stereotypes in training data. In this project, we develop a corpus for future analysis applications of this bias. The corpus uses the data extracted by a tool called Wiki-Tailor which helps to obtain multilingual biographies from Wikipedia. The extracted multilingual corpus of biographies based on actors, linguists and physicists is analyzed, and it is balanced in gender in five languages: Spanish, Catalan, French, English and German. For that purpose, it is necessary to create a semi-automatic software divided into two parts. On the one hand, a manual alignment of the text of each biography is carried out in order to obtain five text files for each author where the information of each line is parallel for each language. On the other hand, each file is formatted in each language parallelized in xml. The xml data enters each author's information (identifier, language, genre, etc.) and is presented in a single text file to make the system simpler and more useful to process. Finally, statistics are obtained from the corpus created so it can be used in future automatic natural language processing or machine learning applications which require multilingual parallel corpus either at the level of sentence or document.En el procesado del lenguaje natural (NLP), los sistemas neurales de traducción automática y la aplicación ciega del aprendizaje automático reflejan bias en los datos de entrenamiento. En este proyecto se crea un corpus con futuras aplicaciones de análisis de este bias a partir de los datos extraÃdos por una herramienta llamada Wiki-Tailor, que ayuda a obtener biografÃas multilingües de Wikipedia. Este corpus de biografÃas multilingües extraÃdas centrada en actores, fÃsicos y lingüistas es analizado y balanceado en cinco idiomas: castellano, catalán, francés, inglés y alemán. Para ello, es necesaria la creación de un software semiautomático dividido en dos partes. En primer lugar, se realiza una alineación manual del texto de cada biografÃa para obtener como resultado cinco archivos de texto para cada autor donde la información de cada lÃnea es paralela para cada idioma. En segundo lugar, se da formato a cada archivo en cada idioma paralelizado en xml. Los datos xml entran la información de cada autor (identificador, idioma, género, etc.) y se presentan en un archivo de texto único para que el sistema sea más sencillo y útil de procesar. Finalmente se obtienen estadÃsticas del corpus creado para que pueda ser utilizado en futuras aplicaciones de procesamiento automático del lenguaje natural o de aprendizaje automático que requieran corpus paralelo multilingüe, ya sea a nivel de oración o de documento.En el processament del llenguatge natural (NLP), els sistemes neurals de traducció automà tica i l'aplicació de l'aprenentatge automà tic reflecteixen bias i estereotips socials a l'entrenament de dades. En aquest projecte es crea un corpus amb futures aplicacions d'anà lisi d'aquest bias a partir de les dades extretes d'una eina anomenada Wiki-Tailor, que ajuda a obtenir biografies multilingües de Wikipedia. Aquest corpus de biografies multilingües extretes centrades en actors, fÃsics i lingüistes és analitzat i balancejat en cinc idiomes diferents: castellà , català , francès, anglès i alemany. Per la seva realització, és necessà ria la creació d'un software semiautomà tic dividit en dos parts. En primer lloc, es realitza un alineament manual del text de cada biografia per obtenir com a resultat cinc arxius de text per a cada autor, on la informació de cada lÃnia és paral·lela per a cada idioma. En segon lloc, s'utilitzen les dades en xml per marcar la informació paral·lela de cada autor (identificador, idioma, gènere, etc.) i es presenten en un fitxer de text únic perquè el sistema sigui més senzill i útil de processar. Finalment s'obtenen estadÃstiques del corpus creat per poder ser utilitzat en futures aplicacions de processament automà tic del llenguatge natural o d'aprenentatge automà tic que requereixin corpus paral·lel multilingüe, sigui a nivell d'oració o de document
Produktionsplanung und Erfolgsrechnung für die Strategische Geschäftseinheit „Videoschnittsystem
- …