Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
Presentamos SPLICR, una plataforma de sostenibilidad para corpus y
recursos lingüísticos basada en web. El sistema está destinado a personas que trabajan en el campo de la lingüística o de la lingüística computacional. Consiste en
una base de datos extensa para metadatos que puede ser explorada para buscar
recursos lingüísticos, que pudieran ser apropiados para las necesidades específicas
de una investigación. SPLICR también ofrece una interfaz gráfica, que permite a
los usuarios buscar y visualizar los corpus. El proyecto, en el que se ha desarollado
el sistema, aspira a archivar de modo sostenible aproximadamente sesenta recursos
lingüísticos, que han sido construidos mediante la colaboración de tres centros de
investigación. Nuestro proyecto tiene dos metas principales: (a) Procesar y archivar
recursos de forma sostenible, de manera que los recursos sigan siendo accesibles para
la comunidad científica dentro de cinco, diez, o incluso veinte años. (b) El permitir
a los investigadores buscar en los recursos tanto a nivel de metadatos como a nivel
de anotaciones lingüísticas. En términos más generales, nuestro objetivo es proporcionar soluciones que posibiliten la interoperabilidad, reutilización y sostenibilidad
de compilaciones heterogéneas de recursos de lenguaje.We present SPLICR, the Web-based Sustainability Platform for Linguistic Corpora and Resources. The system is aimed at people who work in Linguistics
or Computational Linguistics: a comprehensive database of metadata records can be
explored in order to find language resources that could be appropriate for one’s specific research needs. SPLICR also provides a graphical interface that enables users
to query and to visualise corpora. The project in which the system is developed aims
at sustainably archiving the ca. 60 language resources that have been constructed
in three collaborative research centres. Our project has two primary goals: (a) To
process and to archive sustainably the resources so that they are still available to
the research community in five, ten, or even 20 years time. (b) To enable researchers
to query the resources both on the level of their metadata as well as on the level of
linguistic annotations. In more general terms, our goal is to enable solutions that
leverage the interoperability, reusability, and sustainability of heterogeneous collections of language resources