COCAE: corpus cacográfico adulto del español de Costa Rica

Abstract

Informe investigación (proyecto 745-B2-A13) -- Universidad de Costa Rica. Instituto de Investigaciones Lingüísticas (INIL), 2013El Corpus Cacográfico Adulto del Español de Costa Rica(COCAE)constituye el primer objetivo cumplido del Proyecto No. 745-B2-A13 "Desarrollo de herramientas interactivas para el mejoramiento y certificación del español escrito" (investigador principal: Antonio Leoni de León; investigadora asociada: Carla Victoria Jara Murillo), inscrito en el Instituto de Investigaciones Lingüísticas (INIL) de la Universidad de Costa Rica en 2012. El Corpus Cacográfico Adulto del Español de Costa Rica (COCAE) se compiló a partir de datos textuales reales extraídos de internet manualmente. Estos datos se codificaron y se tabularon con el objetivo de crear un listado de los vocablos cacográficos más frecuentes en una muestra de textos escritos por costarricenses y publicados como comentarios personales en diversos medios de comunicación en línea. Los datos se extrajeron de dos corpus textuales separados. El primero (corpus de base - CB) consta de ca. 22.500 palabras y fue codificado en su totalidad mediante el programa de análisis cualitativo Atlas.ti con el fin de realizar la primera sistematización de los errores ortográficos por considerar. En este primer corpus se codificaron 1161 errores, de los cuales 974 (84%) son de acentuación, 44 (4%) conciernen a otros signos diacríticos y 143 (12%) son grafemáticos. El segundo (corpus de referencia - CR) consta de ca. 27.500 palabras y se utilizó para la expansión del corpus ya sistematizado. En conjunto los dos corpus textuales suman ca. 50.000 palabras y el corpus cacográfico extraído consta de 716 formas de palabra (551 cacografías diacríticas y 165 cacografías grafemáticas).Universidad de Costa RicaUCR::Vicerrectoría de Investigación::Unidades de Investigación::Artes y Letras::Instituto de Investigaciones Lingüísticas (INIL

    Similar works