687 research outputs found

    Functionality learning through specification instructions

    Full text link
    Test suites assess natural language processing models' performance on specific functionalities: cases of interest involving model robustness, fairness, or particular linguistic capabilities. They enable fine-grained evaluations of model aspects that would otherwise go unnoticed in standard evaluation datasets, but they do not address the problem of how to fix the failure cases. Previous work has explored functionality learning by fine-tuning models on suite data. While this improves performance on seen functionalities, it often does not generalize to unseen ones and can harm general performance. This paper analyses a fine-tuning-free approach to functionality learning. For each functionality in a suite, we generate a specification instruction that encodes it. We combine the obtained specification instructions to create specification-augmented prompts, which we feed to language models pre-trained on natural instruction data to generate suite predictions. A core aspect of our analysis is to measure the effect that including a set of specifications has on a held-out set of unseen, qualitatively different specifications. Our experiments across four tasks and models ranging from 80M to 175B parameters show that smaller models struggle to follow specification instructions. However, larger models (> 3B params.) can benefit from specifications and even generalize desirable behaviors across functionalities.Comment: 33 pages, 8 figure

    Cross-functional Analysis of Generalisation in Behavioural Learning

    Full text link
    In behavioural testing, system functionalities underrepresented in the standard evaluation setting (with a held-out test set) are validated through controlled input-output pairs. Optimising performance on the behavioural tests during training (behavioural learning) would improve coverage of phenomena not sufficiently represented in the i.i.d. data and could lead to seemingly more robust models. However, there is the risk that the model narrowly captures spurious correlations from the behavioural test suite, leading to overestimation and misrepresentation of model performance -- one of the original pitfalls of traditional evaluation. In this work, we introduce BeLUGA, an analysis method for evaluating behavioural learning considering generalisation across dimensions of different granularity levels. We optimise behaviour-specific loss functions and evaluate models on several partitions of the behavioural test suite controlled to leave out specific phenomena. An aggregate score measures generalisation to unseen functionalities (or overfitting). We use BeLUGA to examine three representative NLP tasks (sentiment analysis, paraphrase identification and reading comprehension) and compare the impact of a diverse set of regularisation and domain generalisation methods on generalisation performance.Comment: 16 pages, 1 figure. To be published in the Transactions of the Association for Computational Linguistics (TACL). This preprint is a pre-MIT Press publication versio

    Checking HateCheck: a cross-functional analysis of behaviour-aware learning for hate speech detection

    Full text link
    Behavioural testing -- verifying system capabilities by validating human-designed input-output pairs -- is an alternative evaluation method of natural language processing systems proposed to address the shortcomings of the standard approach: computing metrics on held-out data. While behavioural tests capture human prior knowledge and insights, there has been little exploration on how to leverage them for model training and development. With this in mind, we explore behaviour-aware learning by examining several fine-tuning schemes using HateCheck, a suite of functional tests for hate speech detection systems. To address potential pitfalls of training on data originally intended for evaluation, we train and evaluate models on different configurations of HateCheck by holding out categories of test cases, which enables us to estimate performance on potentially overlooked system properties. The fine-tuning procedure led to improvements in the classification accuracy of held-out functionalities and identity groups, suggesting that models can potentially generalise to overlooked functionalities. However, performance on held-out functionality classes and i.i.d. hate speech detection data decreased, which indicates that generalisation occurs mostly across functionalities from the same class and that the procedure led to overfitting to the HateCheck data distribution.Comment: 9 pages, 5 figures. Accepted at the First Workshop on Efficient Benchmarking in NLP (NLP Power!

    Implementation of a 3D Coupled Hydrodynamic–Biogeochemical Model in Kuwait Bay

    Get PDF
    Production of farmed fish is increasing worldwide and in areas which have traditionally not had large scale farming, specifically regions of high sea temperature. This research presents a methodology to assess the impacts of these developments on water quality and to manage them in the context of other discharges into the marine environment. Kuwait Bay, in Kuwait, is used as a case study for these types of environments, where the impacts of finfish farms are assessed regarding their location by implementing a 3D coupled hydrodynamic–biogeochemical model. The model was validated against a monthly climatology of field data for hydrodynamics and biogeochemical parameters. Results show that the impact of a farm size with an average historical production is minimal, with a slight increase in nutrient concentrations (0.4%) and in chlorophyll-a and oxygen (less than 1%) compared to the baseline (no farm). When the farm was located outside the bay, at the southern coast, the impact was even smaller. This suggests that the flushing conditions of the location are a prime consideration and can help mitigate the impacts of larger farm sizes

    Propiedades psicométricas de las escalas expectativas de resultado, metas y satisfacción académica en estudiantes de un instituto de Trujillo

    Get PDF
    Este estudio de tipo tecnológico y diseño psicométrico determinó las propiedades psicométricas de expectativas de resultado, metas y satisfacción académica en estudiante de un instituto de Trujillo, estas escalas responden a las variables fundamentales del modelo de persistencia académica, basado en la Teoría Social Cognitiva de la Carrera. En esta investigación participaron 289 mujeres y 261 hombres de distintas carreras, entre 16 y 27 años. Se estableció la validez de contenido por criterio de jueces alcanzando valores muy adecuados de .93 a 1 en el coeficiente V de Aiken; asimismo, la validez de constructo de la estructura interna mediante la correlación ítem-test con valores muy buenos de .41 a .76; y el análisis factorial confirmatorio, que en los modelos unidimensionales reporta índices aún inaceptables, a diferencia del modelo donde covarían las tres escalas que reporta un X2/gl=3.98, GFI=.85, RMSEA=.074, SRMR=.057, CFI=.87, TLI=.86, denotando un ajuste próximo a bueno, que en la re-especificación alcanza índices de X2/gl=3.19, GFI=.87, RMSEA=.063, SRMR=.053, CFI=.90, TLI=.89, con cargas factoriales y covarianzas >.30 de criterio óptimo, que demuestra buen ajuste del instrumento al contexto de estudio. La confiabilidad mediante el método de consistencia interna por el coeficiente Omega alcanzó un valor de .88, en Metas y Expectativas académicas de resultado, en las subescalas Extrínseca de .88, e Intrínseca de .80, en Satisfacción académica de .87, todos de criterio aceptable. Se elaboró baremos generales para cada escala, asimismo, específicos según sexo (expectativa académica – intrínseca) y edad (satisfacción académica)

    Incentivos tributarios y su efecto en la recaudación del impuesto predial en la Municipalidad Distrital Veintiséis de Octubre - Piura, 2020

    Get PDF
    La presente investigación tuvo como objetivo determinar el efecto de los incentivos tributarios en la recaudación del impuesto predial de la municipalidad distrital de Veintiséis de Octubre - Piura, 2020. La investigación es de carácter descriptivocorrelacional. Como instrumento para la recolección de datos se utilizó un cuestionario con escala de Likert, el cual se aplicó a un muestreo probabilístico estratificado conformado por 379 contribuyentes registrados en el sistema de recaudación del impuesto predial de la municipalidad distrital Veintiséis de OctubrePiura, 2020. Para medir la confiabilidad se sometió a la prueba de Alfa de Cronbach. Entre los principales resultados se estableció, que los incentivos tributarios tienen un efecto positivo en la recaudación tributaria del impuesto predial. Asimismo un 55.2% y 17.9% de los contribuyentes están “De acuerdo” y “Ni de acuerdo ni en desacuerdo”, con la afirmación que indica que tienen conocimiento de los incentivos tributarios; respecto a las normas relacionadas a los incentivos tributarios un 43.3% y 31.4% de contribuyentes respondieron estar “De acuerdo” y “Ni de acuerdo ni en desacuerdo” con la afirmación que indica que tienen conocimiento de dichas normas. Se evaluó el desempeño de labor de promoción que realiza la municipalidad, los principales hallazgos indican que el 31.66 % y 30.61% de los contribuyentes consideran “adecuadas” e “inadecuadas” estas labores. De la misma manera se evaluó la labor de campañas que realiza la municipalidad, el 30.08% y 29.29% de los contribuyentes consideran “adecuadas” e “inadecuadas” estas labores. Se llegó a la conclusión que, existe un efecto positivo entre los incentivos y la recaudación tributaria lo que significa que, a mayor nivel de incentivos tributarios, será mayor el nivel de recaudación del impuesto predial en la municipalidad distrital Veintiséis de Octubre- Piura, 2020, esto a su vez es sustentado mediante el diagrama de dispersión.The present research aimed to determine the effect of tributaries incentives in the collection of property tax of the district municipality of Twenty six de October- Piura, 2020. The research is descriptive- correlational. As an instrument for data collection, a questionnaire with a Likert scale was used, was applied to a stratified probability sample made up of 379 contributors registered in the collection system of the property tax of the district municipality Twenty six of October- Piura, 2020.To measure reliability, the Cronbach's Alpha test was submitted. Among the main results, it was established that tax incentives have a positive effect on the collection of property taxes. Likewise, 55.2% and 17.9% of taxpayers "Agree" and "Neither agree nor disagree”, with the statement indicating that they are aware of tax incentives; about related standards related to tax incentives, 43.3% and 31.4% of taxpayers answered that they "Agree" and "Neither agree nor disagree" with the statement that indicates that they are aware of said regulations. The performance of promotion work carried out by the municipality was evaluated; the main findings indicate that 31.66% and 30.61% of taxpayers consider these tasks "adequate" and "inappropriate". In the same way, the campaign work carried out by the municipality was evaluated, 30.08% and 29.29% of taxpayers consider these tasks adequate and inappropriate. The conclusion was reached than exists a positive effect between incentives and the tributary collection which means that, to higher level of tributaries incentives, will be greater the level of collection of property tax in the district municipality Twenty six of October- Piura, 2020, this in turn is sustained by the scatter plot.Tesi

    Inteligencia emocional en los trabajadores de una empresa privada del rubro de servicios de Lima Metropolitana, 2019

    Get PDF
    La presente investigación titulada “Inteligencia emocional en los trabajadores de una empresa privada del rubro de servicios de Lima Metropolitana, 2019”, tuvo como objetivo general determinar el nivel de la variable Inteligencia Emocional, en los trabajadores. El tipo de estudio es descriptivo, el diseño es no experimental y de corte transversal. La población está conformada por 65 trabajadores. Para la medición de la Inteligencia emocional se utilizó el inventario ICE de Bar-On adaptado a la realidad peruana por Nelly Ugarriza Chávez. Está formado de 133 ítems, tipo Likert con cinco opciones de respuesta, evalúa el cociente emocional general compuesto por cinco componentes: intrapersonal, interpersonal, adaptabilidad, manejo de estrés y estado de ánimo. A través del Alfa de Cronbach, se confirmó la confiabilidad de la prueba, cuyo resultado fue 0,885. La base de datos se procesó en el software estadístico SPSS versión 24. Finalmente, los resultados de la investigación, de acuerdo con el objetivo general planteado, el nivel de la inteligencia emocional en los trabajadores es de 50.77% (nivel promedio), 46.15% (nivel bajo) y 3.08% (nivel extremadamente bajo). Existe un mayor porcentual del nivel promedio

    Evaluación de gestión pública y participación ciudadana en una entidad educativa pública de San Juan de Lurigancho

    Get PDF
    Esta investigación fue titulada “Evaluación de la gestión pública y la participación ciudadana en una institución educativa pública de San Juan de Lurigancho 2023”. Este trabajo demostró la correlación existente entre las variables. La población objeto de estudio fueron los padres de familia de una institución educativa pública y la muestra fueron 115 padres que respondieron una encuesta mediante formulario Google, en donde se obtuvo información importante y que validó la hipótesis alterna. Se utilizó el coeficiente de correlación Rho de Spearman para comprobar si existía relación significativa entre la variable participación ciudadana y la evaluación de la gestión pública para explicar que la participación ciudadana podría resolver muchos de los problemas que existen en el control oportuno y estratégico de las entidades públicas pertenecientes al sector educación. La contraloría y otros órganos rectores no se abastecen para hacer una evaluación, monitoreo y control exhaustivo de las instituciones educativas. Se utilizó tablas de frecuencia como herramientas para visibilizar los hallazgos de las variables tanto sus antecedentes y los resultados apuntan a que la encuesta aplicada mediante las TIC por los formularios Google, podría resolver la brecha existente entre ambas variables

    Reflexiones sobre el cuidar-cuidado de enfermería : estudio etnográfico en enfermeras docentes de la Universidad Nacional Mayor de San Marcos

    Get PDF
    El propósito de esta Tesis Doctoral fue esclarecer las representaciones sociales (RS, a seguir) de las enfermeras docentes de la Escuela Académico Profesional de Enfermería de la Universidad Nacional Mayor de San Marcos (EAPE-UNMSM) acerca del cuidar/cuidado, esencia y asunto epistémico, filosófico de la profesión –no obstante su uso frecuente y su reconocida indisociabilidad con la praxis de enfermería– hasta ahora no estudiado a pesar de constituirse en uno de los temas más controvertidos y pocas veces descritos de manera clara en los testimonios conceptuales, filosóficos, antropológicos, existenciales de ellas, en tanto estar bordeando la mencionada escuela sus 42 años desde su fundación; ellas como sujetos de estudio tienen conocimientos particulares que les permiten elaborar comportamientos y comunicación con sus pares, con alumnos, con usuarios, contextualizandos en los que se dan las RS que se constituyen en unidad de análisis referente a la esencia de su pensar-hacer del cuidar/cuidado en su cotidiana enseñanza o asistencia. Es por ello que la trayectoria metodológica ha sido muy flexible, que permitió analizar hallazgos redefiniendo, reelaborando deconstrucciones-construcciones de los significados y significantes. Los métodos cualitativos que usé fueron el etnográfico-etnometodológico que posibilitó ver el asunto desde adentro, las técnicas fueron la entrevista semiestructurada y la observación etnográfica. La hermenéutica como estudio interpretativo de los testimonios, me ayudó a reconstruir cinco temáticas de significados: cautelar la vida de las personas, el empoderamiento del autocuidado, protección integral, visión antropológica de la salud, y condiciones para las competencias. En la red de interacciones se destacan el anclaje de 22 constructos: libertad, responsabilidad, intelecto, voluntad, sensibilidad, respuestas humanas, desvelo, perspectiva holística, alerta, compartir, transacción, alteridad, dependencia, necesidades, compromiso, tarea humanitaria, consejería, actitudes, procesos, liderazgo, información y diferenciación. Así mismo cuatro temáticas de significantes: rescate del autocuidado, reafirmando la dignidad humana, atención integral: cuestión de decisiones y el agobiante trabajo las mismas que derivan de taxonomías etnográficas; en la red de interacciones se destacan el anclaje de 23 constructos: condiciones adecuadas, responsabilidad compartida, maneras, creatividad, evidencias, promoción, ayuda, empoderamiento, formas de vida, diario vivir, rescatar, ser humano, soledad del enfermo, bioseguridad, devoción, cuerpo vivo, modelos de atención, oportunidad, valentía, consistencia, preocupación, alianzas, calidad.-- The purpose of this Doctoral Thesis was to clear up the teachers nurses´s social representations (SR, ahead) San Marcos National Major University Nurses’ School (SN-UNMSM) about the care-caring, essence and epistemic and philosophic themes of the profession –although the frequent use and its recognized non separate with the praxis– until now it has not been studied, nevertheless it has been constituted in one the issues most controversial a few times clearly described in their work and speech: concepts, philosophic, anthropologic, existential terminology of nursing teachers until now in its forty two years. The nursing teachers, subjet of this study, have personal knowledge that allow them to develop behaviors and peers interaction in real daily context with their students, users, therefore they have SR. These are the analysis unit. The methodology has been very flexible, back and forth style, in order to be able to analyzing redefining, remaking deconstructions-constructions on the meaning and significant. The qualitative method that I used was the ethnographic-etnomethodology, which allowed me to see the object, from inside, the techniques were the interview semistructured and the observation ethnographic. The hermeneutic one allow me to analyze their discourses literally and allowed the reconstruction of five thematic meanings: to caution the persons life, the empowerment of self caring, integral protection, anthropologic perspective of the health and conditions for competences. In the net of interactions stood up the anchorage of twenty two constructs: freedom, responsibility, intellect, will, sensibility, awakening, holistic perspective, alert, share, transaction, the other, dependence, necessities, agreement, humanitarian task, council, attitudes, processes, leaderships, information and differentiation. Besides there is four thematic significant: rescue of self caring, reaffirming human dignity, integral care, resolution affairs and bent down work, the same that derivative from ethnographics taxonomies. In the net of interactions it stood up the anchorage of twenty three constructs: suitable conditions, agreement responsibility, ways, creativity, evidences, promotion, help, empowerment, ways of living, daily routine, rescue, human being, sick´s loneness, biosequirity, devoutness, human body, models of caring, opportunity, courageous, consistency, worry, alliance, quality.Tesi