Internet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge volume,
being permanently up-to-date with linguistic variants and having low time and resource costs regarding the traditional way
that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large
bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programming-based, hardware-use optimisation
strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for
maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digital-
content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples).
The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e.
es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly extracted
from Internet as morphological or syntactical learning input.En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como
motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado
de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones
del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para
esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento
de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad
para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener muestras
de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios
de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad
de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis