Search CORE

3 research outputs found

MasakhaNEWS:News Topic Classification for African languages

Author: Abdullahi Saheed Salahudeen
Abdulmumin Idris
Abeeb Afolabi
Adeeko Adetola
Adelani David Ifeoluwa
Adelani Tolulope Anu
Ajayi Tunde Oluwaseyi
al-azzawi Sana Sabah
Alabi Jesujoba Oluwadara
Aremu Anuoluwapo
Awosan Oyinkansola F.
Awoyomi Oluwabusayo Olufunke
Azime Israel Abebe
Bame Mahlet Taye
Chukwuneke Chiamaka I.
David Davis
Diko Thina
Dossou Bonaventure F. P.
Emezue Chris Chinenye
Fanijo Samuel
Gebre Sinodos
Guge Tadesse Kebede
Gwadabe Tajuddeen
Hassan Fuad Mire
Johar Abdulmejid Tuni
Kailani Habiba Abdulganiy
Kimanuka Ussen
Kimotho Wangari
Masiak Marek
Mbonu Chinedu E.
Mehamed Moges Ahmed
Mohamed Muhidin
Mohamed Shafie Abdi
Muhammad Shamsuddeen Hassan
Mukiibi Jonathan
Mwase Christine
Ndolela Lolwethu
Ngabire Evrard
Ngoli Tatiana Moteu
Nixdorf Doreen
Nxakama Siyanda
Nyatsine Pamela
Obiefuna Nnaemeka C.
Odhiambo Brian
Oduwole Mardiyyah
Ogbu Onyekachi Raphael
Ogundepo Odunayo
Ojo Jessica
Oladipo Akintunde
Omotayo Abdul-Hakeem
Owodunni Abraham Toluwase
Samuel Olanrewaju
Sari Sakayo Toadoum
Shode Iyanuoluwa
Sibanda Blessing K.
Sidume Freedmore
Siro Clemencia
Stenetorp Pontus
Tonja Atnafu Lambebo
Tshinu Kanda Patrick
Yigezu Mesay Gemeda
Yousuf Oreen
Publication venue
Publication date: 19/04/2023
Field of study

African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach

Lancaster E-Prints

MasakhaNER 2.0:Africa-centric Transfer Learning for Named Entity Recognition

Author: Abdulmumin Idris
Adelani David Ifeoluwa
Adewumi Tosin P.
Adeyemi Mofetoluwa
Ahia Orevaoghene
Alabi Jesujoba O.
Anuoluwapo Aremu
Beukman Michael
Bukula Andiswa
Buzaaba Happy
Chukwuneke Chiamaka
Dione Cheikh M. Bamba
Dossou Bonaventure F. P.
Emezue Chris Chinenye
Ezeani Ignatius
Gitau Catherine
Gwadabe Tajuddeen
Hacheme Gilles
Kabore Fatoumata Ouoba
Kalipe Godson
Klakow Dietrich
Koagne Victoire Memdjokam
Lignos Constantine
Mabuya Rooweither
Macucwa Tebogo
Marivate Vukosi
Mbaye Derguene
Mboning Elvis
Mokono Neo L.
Muhammad Shamsuddeen Hassan
Mukiibi Jonathan
Munkoh-Buabeng Edwin
Nabende Peter
Nakatumba-Nabende Joyce
Neubig Graham
Ngoli Tatiana Moteu
Ogayo Perez
Ogundepo Odunayo
Palen-Michel Chester
Rijhwani Shruti
Ruder Sebastian
Sibanda Blessing
Tapo Allahsera Auguste
Taylor Amelia
Yousuf Oreen
Publication venue
Publication date: 15/11/2022
Field of study

African languages are spoken by over a billion people, but are underrepresented in NLP research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as a lack of understanding of the settings where current methods are effective. In this paper, we make progress towards solutions for these challenges, focusing on the task of named entity recognition (NER). We create the largest human-annotated NER dataset for 20 African languages, and we study the behavior of state-of-the-art cross-lingual transfer methods in an Africa-centric setting, demonstrating that the choice of source language significantly affects performance. We show that choosing the best transfer language improves zero-shot F1 scores by an average of 14 points across 20 languages compared to using English. Our results highlight the need for benchmark datasets and models that cover typologically-diverse African languages

Lancaster E-Prints

MasakhaNEWS:News Topic Classification for African languages

Author: Abdullahi Saheed Salahudeen
Abdulmumin Idris
Abeeb Afolabi
Adeeko Adetola
Adelani David Ifeoluwa
Adelani Tolulope Anu
Ajayi Tunde Oluwaseyi
al-azzawi Sana Sabah
Alabi Jesujoba Oluwadara
Aremu Anuoluwapo
Awosan Oyinkansola F.
Awoyomi Oluwabusayo Olufunke
Azime Israel Abebe
Bame Mahlet Taye
Chukwuneke Chiamaka I.
David Davis
Diko Thina
Dossou Bonaventure F. P.
Emezue Chris Chinenye
Fanijo Samuel
Gebre Sinodos
Guge Tadesse Kebede
Gwadabe Tajuddeen
Hassan Fuad Mire
Johar Abdulmejid Tuni
Kailani Habiba Abdulganiy
Kimanuka Ussen
Kimotho Wangari
Masiak Marek
Mbonu Chinedu E.
Mehamed Moges Ahmed
Mohamed Muhidin
Mohamed Shafie Abdi
Muhammad Shamsuddeen Hassan
Mukiibi Jonathan
Mwase Christine
Ndolela Lolwethu
Ngabire Evrard
Ngoli Tatiana Moteu
Nixdorf Doreen
Nxakama Siyanda
Nyatsine Pamela
Obiefuna Nnaemeka C.
Odhiambo Brian
Oduwole Mardiyyah
Ogbu Onyekachi Raphael
Ogundepo Odunayo
Ojo Jessica
Oladipo Akintunde
Omotayo Abdul-Hakeem
Owodunni Abraham Toluwase
Samuel Olanrewaju
Sari Sakayo Toadoum
Shode Iyanuoluwa
Sibanda Blessing K.
Sidume Freedmore
Siro Clemencia
Stenetorp Pontus
Tonja Atnafu Lambebo
Tshinu Kanda Patrick
Yigezu Mesay Gemeda
Yousuf Oreen
Publication venue: arXiv.org
Publication date: 19/04/2023
Field of study

Aston Publications Explorer