2,885 research outputs found

    Two knowledge-based methods for High-Performance Sense Distribution Learning

    Get PDF
    Knowing the correct distribution of senses within a corpus can potentially boost the performance of Word Sense Disambiguation (WSD) systems by many points. We present two fully automatic and language-independent methods for computing the distribution of senses given a raw corpus of sentences. Intrinsic and extrinsic evaluations show that our methods outperform the current state of the art in sense distribution learning and the strongest baselines for the most frequent sense in multiple languages and on domain-specific test sets. Our sense distributions are available at http://trainomatic.org

    Gender bias in natural language processing: BioCorpus-5, a preliminary multilingual Gender-Balanced Corpus of in-domain wikipedia biographies

    Get PDF
    In natural language processing and the blind application of machine learning reflect social biases and stereotypes in training data. In this project, we develop a corpus for future analysis applications of this bias. The corpus uses the data extracted by a tool called Wiki-Tailor which helps to obtain multilingual biographies from Wikipedia. The extracted multilingual corpus of biographies based on actors, linguists and physicists is analyzed, and it is balanced in gender in five languages: Spanish, Catalan, French, English and German. For that purpose, it is necessary to create a semi-automatic software divided into two parts. On the one hand, a manual alignment of the text of each biography is carried out in order to obtain five text files for each author where the information of each line is parallel for each language. On the other hand, each file is formatted in each language parallelized in xml. The xml data enters each author's information (identifier, language, genre, etc.) and is presented in a single text file to make the system simpler and more useful to process. Finally, statistics are obtained from the corpus created so it can be used in future automatic natural language processing or machine learning applications which require multilingual parallel corpus either at the level of sentence or document.En el procesado del lenguaje natural (NLP), los sistemas neurales de traducción automática y la aplicación ciega del aprendizaje automático reflejan bias en los datos de entrenamiento. En este proyecto se crea un corpus con futuras aplicaciones de análisis de este bias a partir de los datos extraídos por una herramienta llamada Wiki-Tailor, que ayuda a obtener biografías multilingües de Wikipedia. Este corpus de biografías multilingües extraídas centrada en actores, físicos y lingüistas es analizado y balanceado en cinco idiomas: castellano, catalán, francés, inglés y alemán. Para ello, es necesaria la creación de un software semiautomático dividido en dos partes. En primer lugar, se realiza una alineación manual del texto de cada biografía para obtener como resultado cinco archivos de texto para cada autor donde la información de cada línea es paralela para cada idioma. En segundo lugar, se da formato a cada archivo en cada idioma paralelizado en xml. Los datos xml entran la información de cada autor (identificador, idioma, género, etc.) y se presentan en un archivo de texto único para que el sistema sea más sencillo y útil de procesar. Finalmente se obtienen estadísticas del corpus creado para que pueda ser utilizado en futuras aplicaciones de procesamiento automático del lenguaje natural o de aprendizaje automático que requieran corpus paralelo multilingüe, ya sea a nivel de oración o de documento.En el processament del llenguatge natural (NLP), els sistemes neurals de traducció automàtica i l'aplicació de l'aprenentatge automàtic reflecteixen bias i estereotips socials a l'entrenament de dades. En aquest projecte es crea un corpus amb futures aplicacions d'anàlisi d'aquest bias a partir de les dades extretes d'una eina anomenada Wiki-Tailor, que ajuda a obtenir biografies multilingües de Wikipedia. Aquest corpus de biografies multilingües extretes centrades en actors, físics i lingüistes és analitzat i balancejat en cinc idiomes diferents: castellà, català, francès, anglès i alemany. Per la seva realització, és necessària la creació d'un software semiautomàtic dividit en dos parts. En primer lloc, es realitza un alineament manual del text de cada biografia per obtenir com a resultat cinc arxius de text per a cada autor, on la informació de cada línia és paral·lela per a cada idioma. En segon lloc, s'utilitzen les dades en xml per marcar la informació paral·lela de cada autor (identificador, idioma, gènere, etc.) i es presenten en un fitxer de text únic perquè el sistema sigui més senzill i útil de processar. Finalment s'obtenen estadístiques del corpus creat per poder ser utilitzat en futures aplicacions de processament automàtic del llenguatge natural o d'aprenentatge automàtic que requereixin corpus paral·lel multilingüe, sigui a nivell d'oració o de document

    A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models

    Full text link
    Various types of social biases have been reported with pretrained Masked Language Models (MLMs) in prior work. However, multiple underlying factors are associated with an MLM such as its model size, size of the training data, training objectives, the domain from which pretraining data is sampled, tokenization, and languages present in the pretrained corpora, to name a few. It remains unclear as to which of those factors influence social biases that are learned by MLMs. To study the relationship between model factors and the social biases learned by an MLM, as well as the downstream task performance of the model, we conduct a comprehensive study over 39 pretrained MLMs covering different model sizes, training objectives, tokenization methods, training data domains and languages. Our results shed light on important factors often neglected in prior literature, such as tokenization or model objectives.Comment: Accepted to EMNLP 2023 main conferenc
    corecore