22 research outputs found

    A Crowd-Annotated Spanish Corpus for Humor Analysis

    Full text link
    Computational Humor involves several tasks, such as humor recognition, humor generation, and humor scoring, for which it is useful to have human-curated data. In this work we present a corpus of 27,000 tweets written in Spanish and crowd-annotated by their humor value and funniness score, with about four annotations per tweet, tagged by 1,300 people over the Internet. It is equally divided between tweets coming from humorous and non-humorous accounts. The inter-annotator agreement Krippendorff's alpha value is 0.5710. The dataset is available for general use and can serve as a basis for humor detection and as a first step to tackle subjectivity.Comment: Camera-ready version of the paper submitted to SocialNLP 2018, with a fixed typ

    Restauración automática de acentos ortográficos en adverbios interrogativos

    Get PDF
    La omisión de acentos ortograáficos es un error tipográfi co muy frecuente en el idioma español; su restauración automática consiste en la inserción de acentos omitidos en los lugares que son necesarios. Los adverbios interrogativos son un caso especialmente di ficultoso de este problema, ya que en muchas ocasiones no existen marcas claras que indiquen su presencia. Este trabajo presenta dos técnicas de aprendizaje automático, Conditional Random Fields (CRF) y Support Vector Ma- chines (SVM), aplicadas a la resolución del problema de la restauración automática de acentos ortográ cos para el caso especifí co de los adverbios interrogativos. Se obtuvieron buenos resultados con ambas técnicas, siendo sensiblemente superior el resultado obtenido utilizando un clasificador basado en CRF, y que utiliza como atributos los tokens que más comúnmente preceden y siguen a los adverbios interrogativos.Sociedad Argentina de Informática e Investigación Operativ

    Lavinia :a collaborative NLP platform

    Get PDF
    In this article we present Lavinia, a UIMA-based, collaborative web platform for Natural Language Processing, were both NLP software developers and linguistic analysts can test, use and share di©erent NLP components in a straightforward way. Lavinia allows users to execute UIMA components using a web browser: they can create and conîgure pipelines of tasks, and view their execution results, without installing any extra-software. We believe that this approach can help people with little computational or programming background to get closer to NLP tools, and NLP component developers to easily share their work

    Generación semiautomática de una ontología para una red de ONG

    Get PDF
    Para que el conocimiento almacenado en la Web pueda ser efectivamente recuperado y utilizado en forma automática, es necesario enriquecer las páginas con metadatos que permitan definir conceptos y relaciones en un dominio específico. Este dominio se representa mediante una ontología, mediante la cual se definen las entidades relevantes y las relaciones que las vinculan. Este trabajo busca encontrar e implementar técnicas eficaces que permitan, con la menor intervención del usuario, generar una ontología a partir de documentos publicados en un sitio Web de una red de organizaciones no gubernamentales. La solución propuesta parte de una ontología mínima, construida manualmente, que se completa con entidades nombradas y relaciones identificadas automáticamente. La evaluación del grado de reconocimiento y precisión en la recuperación de entidades y relaciones de la herramienta implementada permite estimar que las técnicas propuestas pueden constituir un aporte relevante para la generación semiautomática de ontologías.Eje: VI Workshop de Agentes y Sistemas Inteligentes (WASI)Red de Universidades con Carreras en Informática (RedUNCI

    Ambiente y conflictos territoriales: ¿obstáculos u oportunidades para el desarrollo local?

    Get PDF
    La ciudad es un territorio de producción social del espacio derivado del esfuerzo colectivo, que requiere la presencia del Estado en la distribución equitativa de los costos y beneficios del proceso urbanizador entre los agentes públicos y privados. En este contexto, las políticas públicas son herramientas que posibilitan el establecimiento de directrices que orientan el proceso de desarrollo del territorio. La definición de las mismas requiere, entre otros aspectos, la clara identificación de las prácticas de los agentes en el territorio en donde se inscriben proyectos sociales y en donde los intereses contrapuestos de los agentes generan negociaciones y conflictos. Esto implica que uno de los insumos claves para la definición de políticas y estrategias de gestión es la identificación y análisis de los conflictos que en el territorio se hacen evidentes o los que potencialmente pudieran existir. En estos conflictos están en disputa los sistemas de vida locales y el control de los territorios. El Ordenamiento Territorial es un instrumento de política pública, destinado a orientar el proceso de producción social del espacio en este sentido. Sin embargo, la ordenación pensada desde los enfoques neoclásicos apunta principalmente a cuantificar. Hoy esa mirada no es suficiente para explicar los contextos complejos y es necesario profundizar en las cualidades del territorio y debe ser complementada con la inclusión de las prácticas de los agentes y los conflictos asociados, así como la definición de los componentes que le dan origen que sustenten espacios de decisión y negociación dinámicos. En este marco, este proyecto se plantea como hipótesis que la incorporación de los conflictos territoriales como un criterio más a tener en cuenta en las estrategias de gestión territorial es una oportunidad para potenciar el desarrollo local y como objetivo de general evaluar la utilización de los conflictos territoriales como criterios para la gestión sustentable del territorio Si bien el Proyecto se desarrollará en el arco sur del ejido municipal de la ciudad de Córdoba, se tendrán presentes las implicancias de las prácticas y/o intereses contrapuestos de la Región Metropolitana Córdoba que podrían afectar el sector de análisis particular. Para la descripción de la situación socio-ambiental y sus tendencias se elaborará cartografía digital y se simularán escenarios mediante un sistema de información geográfica (ArcGis 10.0). La recolección de información primaria para la identificación de las prácticas se hará mediante entrevistas semiestructuradas y en profundidad y grupos focales. Se determinarán las relaciones existentes entre las prácticas de los agentes, la condición ambiental y los conflictos. Se plantearán escenarios posibles considerando las tendencias actuales y diferentes opciones de actuación. Desde el punto de vista del desarrollo territorial local, se propone aportar un estudio de caso que integre datos del medio físico, de la práctica de los agentes y de los potenciales conflictos entre ellos. Esto posibilitará obtener resultados, que plasmados en propuestas de uso del territorio dinámica, facilitarán el equilibrio de fuerzas entre agentes en conflicto.Fil: Maldonado, Martín Alejandro. Universidad Católica de Córdoba. Facultad de Ciencia Política y Relaciones Internacionales; ArgentinaFil: Mogni, Paula Patricia. Universidad Católica de Córdoba. Facultad de Arquitectura; Argentin

    Sedimentological analysis of lacustrine and eolian deposits of the Late Cretaceous in the Paso Córdoba area, Neuquén Basin

    Get PDF
    Las sedimentitas cretácicas tardías de las Formaciones Anacleto y Allen expuestas en el área de Paso Córdoba, representan depósitos lacustres y eólicos. Los sistemas lacustres muestran sucesiones de centro de lago (offshore) y zonas marginales (shoreface), con facies deltaicas asociadas. Los depósitos de offshore conforman cuerpos tabulares de pelitas finamente laminadas con abundante contenido de micas, materia orgánica y moldes de Corbicula. Las facies de shoreface muestran bancos tabulares de areniscas finas bioturbadas por organismos suspensívoros (Skolithos, Arenicolites) y trazas ornamentadas (Spongeliomorpha), y de manera subordinada bancos tabulares con abundantes concentraciones de bioclastos acumulados durante eventos de tormenta. Los sistemas deltaicos muestran el típico arreglo grano creciente, generado por la progradación de areniscas finas a medias correspondientes a un frente deltaico, bioturbadas con Skolithos y Arenicolites, sobre depósitos heterolíticos de prodelta. Los sistemas eólicos muestran depósitos de dunas e interdunas secas y húmedas. Los sistemas de dunas, están compuestos por sets de hasta 10 m de espesor integrados por areniscas medianas a finas con estratificación entrecruzada planar y tangencial de gran escala, que lateralmente pasan a areniscas con estratificación paralela y laminación ondulítica asimétrica, correspondientes a depósitos de interdunas secas, con trazas de vertebrados y rizolitos. Las interdunas húmedas conforman cuerpos lenticulares de escasa extensión y poco espesor, integrados por heterolitas bioturbadas por Taenidium, Skolithos, Arenicolites, trazas de vertebrados y rizolitos. En su conjunto la sección analizada muestra una progresiva aridización desde la base al techo, reflejada por sistemas lacustres con icnofacies de Scoyenia y Skolithos de la Formación Anacleto, que pasan en transición a sistemas de interduna húmeda con icnofacies de Scoyenia y Skolithos, y a dunas e interduna seca con icnofacies de Entradichnus, de la Formación Allen.The Late Cretaceous sedimentary rocks of the Anacleto and Allen Formations in the area of Paso Córdoba comprise lacustrine and eolian deposits. Lacustrine systems are represented by offshore and shoreface deposits, with associated deltaic systems. Offshore deposits are composed of mudstones with abundant mica content, organic matter, and Corbicula molds. Shoreface facies shows tabular banks of fine-grained sandstones, bioturbated by suspension feeders (Skolithos, Arenicolites) and ornamented burrows (Spongeliomorpha), and subordinately tabular banks with high concentration of fragmented bioclasts produced by storm events. The deltaic systems shows the typical upward-coarsening arrangement, generated by the progradation of medium to fine-grained sandstones of the delta-front, bioturbated by Skolithos and Arenicolites, on the heterolitic deposits of the prodelta. Eolian deposits are represented by dunes and dry and wet interdunes. Dune systems are composed by sets up to 10 m thick, integrated by fine to medium-grained sandstones with large scale planar and tangential cross stratification, which laterally pass to dry interdune deposits with vertebrate traces and root marks. The wet interdune facies form lenticular bodies of small regional extension, composed by heterolitic facies bioturbated by Taenidium, Skolithos, Arenicolites, vertebrate traces and root marks. The analyzed section shows a marked aridity from base to top, where the lacustrine system with the Skolithos and Scoyenia ichnofacies (Anacleto Formation) passes transitionally into a wet interdune system with Skolithos and Scoyenia ichnofacies, and to dunes and dry interdunes with the Entradichnus ichnofacies (Allen Formation).Fil: Paz, Marcos Maximiliano. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte; ArgentinaFil: Báez, Alejandro David. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte; ArgentinaFil: Pino, Diego Alejandro. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte; ArgentinaFil: Yunes, Yamile S.. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; ArgentinaFil: Garat, Luis Marcial. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte; ArgentinaFil: Ponce, Juan Jose. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte; ArgentinaFil: Tunik, Maisa Andrea. Universidad Nacional de Río Negro. Sede Alto Valle. Instituto de Investigaciones en Paleobiología y Geología; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte; Argentin

    El Derecho frente a la pandemia por COVID-19

    Get PDF
    Una nueva Revista de Derecho se presenta en esta edición, con muy buenos trabajos de doctrina que abordan aspectos trascendentes en distintas áreas del Derecho. Sin embargo, esta edición se vio también implicada en el hecho de mayor significancia actual: la pandemia por COVID-19

    Análisis de superficie basado en puntuación

    No full text
    A pesar que los símbolos de puntuación son fundamentales en la estructuración del texto, casi ninguna herramienta informática de análisis textual los aprovecha. Varios estudios confirrman la importancia de su tratamiento en el idioma inglés; sin embargo, para el idioma español, es prácticamente inexistente la investigación sobre este tema dentro de la lingüística computacional. El presente trabajo estudia el uso de la puntuación para el análisis de superficie de textos en español, y, como caso particular, se centra en la coma, por ser este el signo que presenta la mayor variedad de usos en la estructuración de texto. Con tal fin, se construye una categorización de las funciones de la coma que se adapte al procesamiento automático. Esto se realiza a partir del estudio de distintas clasificaciones existentes, pero corroborándola contra un corpus de textos periodísticos en español. Finalmente, se construye un analizador sintáctico de superficie combinando métodos estadísticos y simbólicos. Por un lado, se obtiene un evaluador de la función de las comas a través de técnicas de aprendizaje automático. Por otro, se escriben reglas de análisis que aprovechan la clasificación realizada por el evaluador [aprendido], utilizando un formalismo de reglas de reescritura. Se concluye que el tratamiento de la puntuación en el análisis sintáctico también es útil en el español. Además, se observa que la combinación de métodos simbólicos y estadísticos puede potenciar los resultados de ambos enfoque

    Automatic Curation of Court Documents: Anonymizing Personal Data

    No full text
    In order to provide open access to data of public interest, it is often necessary to perform several data curation processes. In some cases, such as biological databases, curation involves quality control to ensure reliable experimental support for biological sequence data. In others, such as medical records or judicial files, publication must not interfere with the right to privacy of the persons involved. There are also interventions in the published data with the aim of generating metadata that enable a better experience of querying and navigation. In all cases, the curation process constitutes a bottleneck that slows down general access to the data, so it is of great interest to have automatic or semi-automatic curation processes. In this paper, we present a solution aimed at the automatic curation of our National Jurisprudence Database, with special focus on the process of the anonymization of personal information. The anonymization process aims to hide the names of the participants involved in a lawsuit without losing the meaning of the narrative of facts. In order to achieve this goal, we need, not only to recognize person names but also resolve co-references in order to assign the same label to all mentions of the same person. Our corpus has significant differences in the spelling of person names, so it was clear from the beginning that pre-existing tools would not be able to reach a good performance. The challenge was to find a good way of injecting specialized knowledge about person names syntax while taking profit of previous capabilities of pre-trained tools. We fine-tuned an NER analyzer and we built a clusterization algorithm to solve co-references between named entities. We present our first results, which, for both tasks, are promising: We obtained a 90.21% of F1-micro in the NER task—from a 39.99% score before retraining the same analyzer in our corpus—and a 95.95% ARI score in clustering for co-reference resolution

    Genomic analysis of sequence-dependent DNA curvature in Leishmania.

    Get PDF
    Leishmania major is a flagellated protozoan parasite of medical importance. Like other members of the Trypanosomatidae family, it possesses unique mechanisms of gene expression such as constitutive polycistronic transcription of directional gene clusters, gene amplification, mRNA trans-splicing, and extensive editing of mitochondrial transcripts. The molecular signals underlying most of these processes remain under investigation. In order to investigate the role of DNA secondary structure signals in gene expression, we carried out a genome-wide in silico analysis of the intrinsic DNA curvature. The L. major genome revealed a lower frequency of high intrinsic curvature regions as well as inter- and intra- chromosomal distribution heterogeneity, when compared to prokaryotic and eukaryotic organisms. Using a novel method aimed at detecting region-integrated intrinsic curvature (RIIC), high DNA curvature was found to be associated with regions implicated in transcription initiation. Those include divergent strand-switch regions between directional gene clusters and regions linked to markers of active transcription initiation such as acetylated H3 histone, TRF4 and SNAP50. These findings suggest a role for DNA curvature in transcription initiation in Leishmania supporting the relevance of DNA secondary structures signals
    corecore