Search CORE

24 research outputs found

STOP: A dataset for Spoken Task Oriented Semantic Parsing

Author: Algayres Robin
Copet Jade
Dupoux Emmanuel
Elkahky Ali
Hsu Po-Chun
Hsu Wei-Ning
Lazar Daniel
Le Duc
Mohamed Abdelrahman
Mordechay Yossef
Nguyen Tu Ahn
Sagar Adithya
Shrivastava Akshat
Tomasello Paden
Zettlemoyer Luke
Publication venue
Publication date: 22/07/2022
Field of study

End-to-end spoken language understanding (SLU) predicts intent directly from audio using a single model. It promises to improve the performance of assistant systems by leveraging acoustic information lost in the intermediate textual representation and preventing cascading errors from Automatic Speech Recognition (ASR). Further, having one unified model has efficiency advantages when deploying assistant systems on-device. However, the limited number of public audio datasets with semantic parse labels hinders the research progress in this area. In this paper, we release the Spoken Task-Oriented semantic Parsing (STOP) dataset, the largest and most complex SLU dataset to be publicly available. Additionally, we define low-resource splits to establish a benchmark for improving SLU when limited labeled data is available. Furthermore, in addition to the human-recorded audio, we are releasing a TTS-generated version to benchmark the performance for low-resource domain adaptation of end-to-end SLU systems. Initial experimentation show end-to-end SLU models performing slightly worse than their cascaded counterparts, which we hope encourages future work in this direction

arXiv.org e-Print Archive

Scaling Speech Technology to 1,000+ Languages

Author: Adi Yossi
Auli Michael
Babu Arun
Baevski Alexei
Conneau Alexis
Elkahky Ali
Fazel-Zarandi Maryam
Hsu Wei-Ning
Kundu Sayani
Ni Zhaoheng
Pratap Vineel
Shi Bowen
Tjandra Andros
Tomasello Paden
Vyas Apoorv
Zhang Xiaohui
Publication venue
Publication date: 22/05/2023
Field of study

Expanding the language coverage of speech technology has the potential to improve access to information for many more people. However, current speech technology is restricted to about one hundred languages which is a small fraction of the over 7,000 languages spoken around the world. The Massively Multilingual Speech (MMS) project increases the number of supported languages by 10-40x, depending on the task. The main ingredients are a new dataset based on readings of publicly available religious texts and effectively leveraging self-supervised learning. We built pre-trained wav2vec 2.0 models covering 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for the same number of languages, as well as a language identification model for 4,017 languages. Experiments show that our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark while being trained on a small fraction of the labeled data

arXiv.org e-Print Archive

CoNLL 2017 Shared Task : Multilingual Parsing from Raw Text to Universal Dependencies

Author: Attia Mohammed
Badmaeva Elena
Banerjee Esha
Burchardt Aljoscha
Cinková Silvie
de Marneffe Marie-Catherine
dePaiva Valeria
Droganova Kira
Elkahky Ali
Fernández Alcalde Héctor
Ginter Filip
Gökırmak Memduh
Habash Nizar
Hajič Jan
Hajič jr., Jan
Harris Kim
Hlaváčová Jaroslava
Kanayama Hiroshi
Kanerva Jenna
Kayadelen Tolga
Kettnerová Václava
Kirchner Jesse
Kwak Sookyoung
Lando Tatiana
Lertpradit Saran
Leung Herman
Li Josie
Luotolahti Juhani
Macketanz Vivien
Mandl Michael
Manning Christopher D.
Manurung Ruli
Marheinecke Katrin
Martínez Alonso Héctor
Mendonça Gustavo
Missilä Anna
Nedoluzhko Anna
Nitisaroj Rattima
Nivre Joakim
Ojala Stina
Petrov Slav
Pitler Emily
Popel Martin
Potthast Martin
Pyysalo Sampo
Reddy Siva
Rehm Georg
Sanguinetti Manuela
Schuster Sebastian
Shimada Atsuko
Simi Maria
Stella Antonio
Straka Milan
Strnadová Jana
Sulubacak Umut
Taji Dima
Tyers Francis
Urešová Zdeňka
Uszkoreit Hans
Yu Zhuoran
Zeman Daniel
Çöltekin Çağrı
Publication venue: The Association for Computational Linguistics
Publication date: 01/01/2017
Field of study

The Conference on Computational Natural Language Learning (CoNLL) features a shared task, in which participants train and test their learning systems on the same data sets. In 2017, one of two tasks was devoted to learning dependency parsers for a large number of languages, in a real world setting without any gold-standard annotation on input. All test sets followed a unified annotation scheme, namely that of Universal Dependencies. In this paper, we define the task and evaluation methodology, describe data preparation, report and analyze the main results, and provide a brief categorization of the different approaches of the participating systems.Peer reviewe

Crossref

Archivio della Ricerca - Università di Pisa

Biblio at Institute of Formal and Applied Linguistics

Helsingin yliopiston digitaalinen arkisto

Institutional Research Information System University of Turin

Relatório de estágio em farmácia comunitária

Author: Abrams Mitchell
Ackermann Elia
Aepli Noëmi
Aghaei Hamid
Agić Željko
Ahmadi Amir
Ahrenberg Lars
Ajede Chika Kennedy
Aleksandravičiūtė Gabrielė
Alfina Ika
Antonsen Lene
Aplonova Katya
Aquino Angelina
Aragon Carolina
Aranzabe Maria Jesus
Arnardóttir Þórunn
Arutie Gashaw
Arwidarasti Jessica Naraiswari
Asahara Masayuki
Ateyah Luma
Atmaca Furkan
Attia Mohammed
Atutxa Aitziber
Augustinus Liesbeth
Badmaeva Elena
Balasubramani Keerthana
Ballesteros Miguel
Banerjee Esha
Bank Sebastian
Barbu Mititelu Verginica
Basmov Victoria
Batchelor Colin
Bauer John
Bedir Seyyit Talha
Bengoetxea Kepa
Berk Gözde
Berzak Yevgeni
Bhat Irshad Ahmad
Bhat Riyaz Ahmad
Biagetti Erica
Bick Eckhard
Bielinskienė Agnė
Bjarnadóttir Kristín
Blokland Rogier
Bobicev Victoria
Boizou Loïc
Borges Völker Emanuel
Bosco Cristina
Bouma Gosse
Bowman Sam
Boyd Adriane
Brokaitė Kristina
Burchardt Aljoscha
Börstell Carl
Candito Marie
Caron Bernard
Caron Gauthier
Cavalcanti Tatiana
Cebiroğlu Eryiğit Gülşen
Cecchini Flavio Massimiliano
Celano Giuseppe G. A.
Cetin Savas
Chalub Fabricio
Chi Ethan
Cho Yongseok
Choi Jinho
Chun Jayeol
Cignarella Alessandra T.
Cinková Silvie
Collomb Aurélie
Connor Miriam
Courtin Marine
Davidson Elizabeth
de Marneffe Marie-Catherine
de Paiva Valeria
de Souza Elvis
Derin Mehmet Oguz
Diaz de Ilarraza Arantza
Dickerson Carly
Dinakaramani Arawinda
Dione Bamba
Dirix Peter
Dobrovoljc Kaja
Dozat Timothy
Droganova Kira
Dwivedi Puneet
Eckhoff Hanne
Eli Marhaba
Elkahky Ali
Ephrem Binyam
Erina Olga
Erjavec Tomaž
Etienne Aline
Evelyn Wograine
Facundes Sidney
Farkas Richárd
Fernanda Marília
Fernandez Alcalde Hector
Foster Jennifer
Freitas Cláudia
Fujita Kazunori
Gajdošová Katarína
Galbraith Daniel
Garcia Marcos
Garza Sebastian
Gerardi Fabrício Ferraz
Gerdes Kim
Ginter Filip
Goenaga Iakes
Gojenola Koldo
Goldberg Yoav
González Saavedra Berta
Griciūtė Bernadeta
Grioni Matias
Grobol Loïc
Grūzītis Normunds
Guillaume Bruno
Guillot-Barbance Céline
Gärdenfors Moa
Gómez Guinovart Xavier
Gökırmak Memduh
Güngör Tunga
Habash Nizar
Hafsteinsson Hinrik
Hajič jr. Jan
Hajič Jan
Han Na-Rae
Hanifmuti Muhammad Yudistira
Hardwick Sam
Harris Kim
Haug Dag
Heinecke Johannes
Hellwig Oliver
Hennig Felix
Hladká Barbora
Hlaváčová Jaroslava
Hociung Florinel
Hohle Petter
Huber Eva
Hwang Jena
Hà Mỹ Linh
Hämäläinen Mika
Ikeda Takumi
Ingason Anton Karl
Ion Radu
Irimia Elena
Ishola Ọlájídé
Jelínek Tomáš
Johannsen Anders
Juutinen Markus
Jónsdóttir Hildur
Jørgensen Fredrik
K Sarveswaran
Kaasen Andre
Kabaeva Nadezhda
Kahane Sylvain
Kanayama Hiroshi
Kanerva Jenna
Katz Boris
Kayadelen Tolga
Kaşıkara Hüner
Kenney Jessica
Kettnerová Václava
Kirchner Jesse
Klementieva Elena
Kopacewicz Kamil
Korkiakangas Timo
Kotsyba Natalia
Kovalevskaitė Jolanta
Krek Simon
Krishnamurthy Parameswari
Kwak Sookyoung
Köhn Arne
Köksal Abdullatif
Laippala Veronika
Lam Lucia
Lambertino Lorenzo
Lando Tatiana
Larasati Septina Dian
Lavrentiev Alexei
Lee John
Lenci Alessandro
Lertpradit Saran
Leung Herman
Levina Maria
Li Cheuk Ying
Li Josie
Li Keying
Li Yuan
Lim KyungTae
Lindén Krister
Ljubešić Nikola
Loginova Olga
Luthfi Andry
Luukko Mikko
Lyashevskaya Olga
Lynn Teresa
Lê Hồng Phương
Macketanz Vivien
Makazhanov Aibek
Mandl Michael
Manning Christopher
Manurung Ruli
Mareček David
Marheinecke Katrin
Martins André
Martínez Alonso Héctor
Matsuda Hiroshi
Matsumoto Yuji
Mašek Jan
McDonald Ryan
McGuinness Sarah
Mendonça Gustavo
Miekka Niko
Mischenkova Karina
Misirpashayeva Margarita
Missilä Anna
Mititelu Cătălin
Mitrofan Maria
Miyao Yusuke
Mojiri Foroushani AmirHossein
Moloodi Amirsaeid
Montemagni Simonetta
More Amir
Moreno Romero Laura
Mori Keiko Sophie
Mori Shinsuke
Morioka Tomohiko
Moro Shigeki
Mortensen Bjartur
Moskalevskyi Bohdan
Muischnek Kadri
Munro Robert
Murawaki Yugo
Müürisep Kaili
Mărănduc Cătălina
Nainwani Pinkey
Nakhlé Mariam
Navarro Horñiacek Juan Ignacio
Nedoluzhko Anna
Nešpore-Bērzkalne Gunta
Nguyễn Thị Minh Huyền
Nguyễn Thị Lương
Nikaido Yoshihiro
Nikolaev Vitaly
Nitisaroj Rattima
Nivre Joakim
Nourian Alireza
Nurmi Hanna
Ojala Stina
Ojha Atul Kr.
Olúòkun Adédayọ̀
Omura Mai
Onwuegbuzia Emeka
Osenova Petya
Partanen Niko
Pascual Elena
Passarotti Marco
Patejuk Agnieszka
Paulino-Passos Guilherme
Peljak-Łapińska Angelika
Peng Siyao
Perez Cenel-Augusto
Perkova Natalia
Perrier Guy
Petrov Slav
Petrova Daria
Phelan Jason
Piitulainen Jussi
Pirinen Tommi A
Pitler Emily
Plank Barbara
Poibeau Thierry
Ponomareva Larisa
Popel Martin
Pretkalniņa Lauma
Prokopidis Prokopis
Przepiórkowski Adam
Prévost Sophie
Puolakainen Tiina
Pyysalo Sampo
Qi Peng
Rademaker Alexandre
Rama Taraka
Ramasamy Loganathan
Ramisch Carlos
Rashel Fam
Rasooli Mohammad Sadegh
Ravishankar Vinit
Real Livy
Rebeja Petru
Reddy Siva
Rehm Georg
Riabov Ivan
Rießler Michael
Rimkutė Erika
Rinaldi Larissa
Rituma Laura
Rocha Luisa
Romanenko Mykhailo
Rosa Rudolf
Rovati Davide
Roșca Valentin
Rudina Olga
Rueter Jack
Rääbis Andriela
Rögnvaldsson Eiríkur
Rúnarsson Kristján
Sadde Shoval
Safari Pegah
Sagot Benoît
Sahala Aleksi
Saleh Shadi
Salomoni Alessio
Samardžić Tanja
Samson Stephanie
Sanguinetti Manuela
Saulīte Baiba
Sawanakunanon Yanin
Scannell Kevin
Scarlata Salvatore
Schneider Nathan
Schuster Sebastian
Seddah Djamé
Seeker Wolfgang
Seraji Mojgan
Shen Mo
Shimada Atsuko
Shirasu Hiroyuki
Shohibussirri Muh
Sichinava Dmitry
Sigurðsson Einar Freyr
Silveira Aline
Silveira Natalia
Simi Maria
Simionescu Radu
Simkó Katalin
Simov Kiril
Skachedubova Maria
Smith Aaron
Soares-Bastos Isabela
Spadine Carolyn
Steingrímsson Steinþór
Stella Antonio
Straka Milan
Strickland Emmett
Strnadová Jana
Suhr Alane
Sulestio Yogi Lesmana
Sulubacak Umut
Suzuki Shingo
Szántó Zsolt
Särg Dage
Taji Dima
Takahashi Yuta
Tamburini Fabio
Tan Mary Ann C.
Tanaka Takaaki
Tella Samson
Tellier Isabelle
Thomas Guillaume
Torga Liisi
Toska Marsida
Trosterud Trond
Trukhina Anna
Tsarfaty Reut
Tyers Francis
Türk Utku
Uematsu Sumire
Untilov Roman
Urešová Zdeňka
Uria Larraitz
Uszkoreit Hans
Utka Andrius
Vajjala Sowmya
van Niekerk Daniel
van Noord Gertjan
Varga Viktor
Villemonte de la Clergerie Eric
Vincze Veronika
Wakasa Aya
Wallenberg Joel C.
Wallin Lars
Walsh Abigail
Wang Jing Xian
Washington Jonathan North
Wendt Maximilan
Widmer Paul
Williams Seyi
Wirén Mats
Wittern Christian
Woldemariam Tsegay
Wong Tak-sum
Wróblewska Alina
Yako Mary
Yamashita Kayo
Yamazaki Naoki
Yan Chunxiao
Yasuoka Koichi
Yavrumyan Marat M.
Yu Zhuoran
Zahra Shorouq
Zeldes Amir
Zeman Daniel
Zhu Hanzhi
Zhuravleva Anna
Çetinoğlu Özlem
Çöltekin Çağrı
Östling Robert
Özateş Şaziye Betül
Özgür Arzucan
Öztürk Başaran Balkız
Øvrelid Lilja
Čéplö Slavomír
Šimková Mária
Žabokrtský Zdeněk
Publication venue
Publication date: 01/09/2016
Field of study

Relatório de estágio realizado no âmbito do Mestrado Integrado em Ciências Farmacêuticas, apresentado à Faculdade de Farmácia da Universidade de Coimbr

LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University

Les unités plus grossières bénéficient-elles d'un préapprentissage de la parole basé sur la prédiction de cluster?

Author: Adi Yossi
Algayres Robin
Copet Jade
Dupoux Emmanuel
Elkahky Ali
Hsu Wei-Ning
Mohamed Abdelrahman
Nguyen Tu Anh
Tomasello Paden
Publication venue: IEEE
Publication date: 04/06/2023
Field of study

International audienceThe research community has produced many successful selfsupervised speech representation learning methods over the past few years. Discrete units have been utilized in various self-supervised learning frameworks, such as VQ-VAE [1], wav2vec 2.0 [2], HuBERT [3], and Wav2Seq [4]. This paper studies the impact of altering the granularity and improving the quality of these discrete acoustic units for pre-training encoder-only and encoder-decoder models. We systematically study the current proposals of using Byte-Pair Encoding (BPE) and new extensions that use cluster smoothing and Brown clustering. The quality of learned units is studied intrinsically using zero speech metrics and on the downstream speech recognition (ASR) task. Our results suggest that longer-range units are helpful for encoder-decoder pre-training; however, encoder-only masked-prediction models cannot yet benefit from self-supervised word-like targets

INRIA a CCSD electronic archive server

Generative Spoken Dialogue Language Modeling

Author: Adi Yossi
Algayres Robin
Copet Jade
Dupoux Emmanuel
Elkahky Ali
Hsu Wei-Ning
Kharitonov Eugene
Mohamed Abdelrahman
Nguyen Tu Anh
Sagot Benoît
Tomasello Paden
Publication venue: HAL CCSD
Publication date: 30/10/2022
Field of study

We introduce dGSLM, the first "textless" model able to generate audio samples of naturalistic spoken dialogues. It uses recent work on unsupervised spoken unit discovery coupled with a dual-tower transformer architecture with cross-attention trained on 2000 hours of two-channel raw conversational audio (Fisher dataset) without any text or labels. It is able to generate speech, laughter and other paralinguistic signals in the two channels simultaneously and reproduces naturalistic turn taking. Generation samples can be found at: https://speechbot.github.io/dgslm

arXiv.org e-Print Archive

INRIA a CCSD electronic archive server

Directory of Open Access Journals

Textless-lib: a Library for Textless Spoken Language Processing

Author: Adi Yossi
Copet Jade
Dupoux Emmanuel
Elkahky Ali
Hsu Wei-Ning
Kharitonov Eugene
Lakhotia Kushal
Lee Ann
Mohamed Abdelrahman
Nguyen Tu, Anh
Tomasello Paden
Publication venue: HAL CCSD
Publication date: 15/02/2022
Field of study

International audienceTextless spoken language processing research aims to extend the applicability of standard NLP toolset onto spoken language and languages with few or no textual resources. In this paper, we introduce textless-lib, a PyTorch-based library aimed to facilitate research in this research area. We describe the building blocks that the library provides and demonstrate its usability by discuss three different use-case examples: (i) speaker probing, (ii) speech resynthesis and compression, and (iii) speech continuation. We believe that textless-lib substantially simplifies research the textless setting and will be handful not only for speech researchers but also for the NLP community at large. The code, documentation, and pre-trained models are available at https://github.com/ facebookresearch/textlesslib/

arXiv.org e-Print Archive

INRIA a CCSD electronic archive server

STOP: A dataset for spoken task oriented semantic parsing

Author: Adi Yossi
Algayres Robin
Copet Jade
Dupoux Emmanuel
Elkahky Ali
Hsu Po-Chun
Hsu Wei-Ning
Lazar Daniel
Le Duc
Mohamed Abdelrahman
Nguyen Tu, Ahn
Sagar Adithya
Shrivastava Akshat
Tomasello Paden
Zettlemoyer Luke
Publication venue: HAL CCSD
Publication date: 09/01/2023
Field of study

International audienceEnd-to-end spoken language understanding (SLU) predicts intent directly from audio using a single model. It promises to improve the performance of assistant systems by leveraging acoustic information lost in the intermediate textual representation and preventing cascading errors from Automatic Speech Recognition (ASR). Further, having one unified model has efficiency advantages when deploying assistant systems on-device. However, the limited number of public audio datasets with semantic parse labels hinders the research progress in this area. In this paper, we release the Spoken Task-Oriented semantic Parsing (STOP) dataset 1 , the largest and most complex SLU dataset publicly available. Additionally, we define low-resource splits to establish a benchmark for improving SLU when limited labeled data is available. Furthermore, in addition to the human-recorded audio, we are releasing a TTS-generated versions to benchmark the performance for low-resource and domain adaptation of end-to-end SLU systems

INRIA a CCSD electronic archive server

CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies

Author: Ali Elkahky
Aljoscha Burchardt
Anna Missilä
Anna Nedoluzhko
Antonio Stella
Atsuko Shimada
Daniel Zeman
Dima Taji
Elena Badmaeva
Emily Pitler
Esha Banerjee
Filip Ginter
Francis Tyers
Georg Rehm
Gustavo Mendonca
Hans Uszkoreit
Hector Fernandez Alcalde
Herman Leung
Hiroshi Kanayama
Héctor Martínez Alonso
Jan Hajic Jr.
Jan Hajic
Jana Strnadová
Jaroslava Hlavacova
Jenna Kanerva
Jesse Kirchner
Joakim Nivre
Juhani Luotolahti
Katrin Marheinecke
Kim Harris
Kira Droganova
Manning Christopher D.
Manuela Sanguinetti
Maria Simi
Marie-Catherine de Marneffe
Martin Popel
Martin Potthast
Memduh Gokirmak
Michael Mandl
Milan Straka
Mohammed Attia
Nizar Habash
Osie Li
Rattima Nitisaroj
Ruli Manurung
Sampo Pyysalo
Saran Lertpradit
Sebastian Schuster
Silvie Cinkova
Siva Reddy
Slav Petrov
Sookyoung Kwak
Stina Ojala
Tatiana Lando
Tolga Kayadelen
Umut Sulubacak
Valeria Depaiva
Vivien Macketanz
Václava Kettnerová
Zdenka Uresova
Zhuoran Yu
Çağrı Çöltekin
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2017
Field of study

The Conference on Computational Natural Language Learning (CoNLL) features a shared task, in which participants train and test their learning systems on the same data sets. In 2017, one of two tasks was devoted to learning dependency parsers for a large number of languages, in a real-world setting without any gold-standard annotation on input. All test sets followed a unified annotation scheme, namely that of Universal Dependencies. In this paper, we define the task and evaluation methodology, describe data preparation, report and analyze the main results, and provide a brief categorization of the different approaches of the participating syste

Archivio della Ricerca - Università di Pisa

Universal Dependencies 2.0 – CoNLL 2017 Shared Task Development and Test Data

Author: Agić Željko
Ahrenberg Lars
Antonsen Lene
Aranzabe Maria Jesus
Asahara Masayuki
Ateyah Luma
Attia Mohammed
Atutxa Aitziber
Badmaeva Elena
Ballesteros Miguel
Banerjee Esha
Bank Sebastian
Bauer John
Bengoetxea Kepa
Bhat Riyaz Ahmad
Bick Eckhard
Bosco Cristina
Bouma Gosse
Bowman Sam
Burchardt Aljoscha
Candito Marie
Caron Gauthier
Cebiroğlu Eryiğit Gülşen
Celano Giuseppe G. A.
Cetin Savas
Chalub Fabricio
Cho Yongseok
Choi Jinho
Cinková Silvie
Connor Miriam
de Marneffe Marie-Catherine
de Paiva Valeria
Diaz de Ilarraza Arantza
Dobrovoljc Kaja
Dozat Timothy
Droganova Kira
Eli Marhaba
Elkahky Ali
Erjavec Tomaž
Farkas Richárd
Fernandez Alcalde Hector
Foster Jennifer
Freitas Cláudia
Gajdošová Katarína
Galbraith Daniel
Garcia Marcos
Ginter Filip
Goenaga Iakes
Gojenola Koldo
Goldberg Yoav
Gonzáles Saavedra Berta
Grioni Matias
Grūzītis Normunds
Guillaume Bruno
Gómez Guinovart Xavier
Gökırmak Memduh
Habash Nizar
Hajič jr. Jan
Hajič Jan
Harris Kim
Haug Dag
Hladká Barbora
Hlaváčová Jaroslava
Hohle Petter
Hà Mỹ Linh
Ion Radu
Irimia Elena
Johannsen Anders
Jørgensen Fredrik
Kanayama Hiroshi
Kanerva Jenna
Kayadelen Tolga
Kaşıkara Hüner
Kettnerová Václava
Kirchner Jesse
Kotsyba Natalia
Krek Simon
Kwak Sookyoung
Laippala Veronika
Lambertino Lorenzo
Lando Tatiana
Lenci Alessandro
Lertpradit Saran
Leung Herman
Li Cheuk Ying
Li Josie
Ljubešić Nikola
Loginova Olga
Lyashevskaya Olga
Lynn Teresa
Lê Hồng Phương
Macketanz Vivien
Makazhanov Aibek
Mandl Michael
Manning Christopher
Manurung Ruli
Mareček David
Marheinecke Katrin
Martins André
Martínez Alonso Héctor
Matsumoto Yuji
Mašek Jan
McDonald Ryan
Mendonça Gustavo
Missilä Anna
Mititelu Verginica
Miyao Yusuke
Montemagni Simonetta
More Amir
Moreno Romero Laura
Mori Shunsuke
Moskalevskyi Bohdan
Muischnek Kadri
Mustafina Nina
Müürisep Kaili
Mărănduc Cătălina
Nainwani Pinkey
Nedoluzhko Anna
Nguyễn Thị Minh Huyền
Nguyễn Thị Lương
Nikolaev Vitaly
Nitisaroj Rattima
Nivre Joakim
Nurmi Hanna
Ojala Stina
Osenova Petya
Pascual Elena
Passarotti Marco
Perez Cenel-Augusto
Perrier Guy
Petrov Slav
Piitulainen Jussi
Pitler Emily
Plank Barbara
Popel Martin
Pretkalniņa Lauma
Prokopidis Prokopis
Puolakainen Tiina
Pyysalo Sampo
Rademaker Alexandre
Real Livy
Reddy Siva
Rehm Georg
Rinaldi Larissa
Rituma Laura
Rosa Rudolf
Rovati Davide
Saleh Shadi
Sanguinetti Manuela
Saulīte Baiba
Sawanakunanon Yanin
Schuster Sebastian
Seddah Djamé
Seeker Wolfgang
Seraji Mojgan
Shakurova Lena
Shen Mo
Shimada Atsuko
Shohibussirri Muh
Silveira Natalia
Simi Maria
Simionescu Radu
Simkó Katalin
Simov Kiril
Smith Aaron
Stella Antonio
Strnadová Jana
Suhr Alane
Sulubacak Umut
Szántó Zsolt
Taji Dima
Tanaka Takaaki
Trosterud Trond
Trukhina Anna
Tsarfaty Reut
Tyers Francis
Uematsu Sumire
Urešová Zdeňka
Uria Larraitz
Uszkoreit Hans
van Noord Gertjan
Varga Viktor
Vincze Veronika
Washington Jonathan North
Yu Zhuoran
Zeman Daniel
Zhu Hanzhi
Çöltekin Çağrı
Øvrelid Lilja
Šimková Mária
Žabokrtský Zdeněk
Publication venue: Universal Dependencies Consortium
Publication date: 18/05/2017
Field of study

Universal Dependencies is a project that seeks to develop cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). This release contains the test data used in the CoNLL 2017 shared task on parsing Universal Dependencies. Due to the shared task the test data was held hidden and not released together with the training and development data of UD 2.0. Therefore this release complements the UD 2.0 release (http://hdl.handle.net/11234/1-1983) to a full release of UD treebanks. In addition, the present release contains 18 new parallel test sets and 4 test sets in surprise languages. The present release also includes the development data already released with UD 2.0. Unlike regular UD releases, this one uses the folder-file structure that was visible to the systems participating in the shared task

LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University