687 research outputs found
Functionality learning through specification instructions
Test suites assess natural language processing models' performance on
specific functionalities: cases of interest involving model robustness,
fairness, or particular linguistic capabilities. They enable fine-grained
evaluations of model aspects that would otherwise go unnoticed in standard
evaluation datasets, but they do not address the problem of how to fix the
failure cases. Previous work has explored functionality learning by fine-tuning
models on suite data. While this improves performance on seen functionalities,
it often does not generalize to unseen ones and can harm general performance.
This paper analyses a fine-tuning-free approach to functionality learning.
For each functionality in a suite, we generate a specification instruction that
encodes it. We combine the obtained specification instructions to create
specification-augmented prompts, which we feed to language models pre-trained
on natural instruction data to generate suite predictions. A core aspect of our
analysis is to measure the effect that including a set of specifications has on
a held-out set of unseen, qualitatively different specifications. Our
experiments across four tasks and models ranging from 80M to 175B parameters
show that smaller models struggle to follow specification instructions.
However, larger models (> 3B params.) can benefit from specifications and even
generalize desirable behaviors across functionalities.Comment: 33 pages, 8 figure
Cross-functional Analysis of Generalisation in Behavioural Learning
In behavioural testing, system functionalities underrepresented in the
standard evaluation setting (with a held-out test set) are validated through
controlled input-output pairs. Optimising performance on the behavioural tests
during training (behavioural learning) would improve coverage of phenomena not
sufficiently represented in the i.i.d. data and could lead to seemingly more
robust models. However, there is the risk that the model narrowly captures
spurious correlations from the behavioural test suite, leading to
overestimation and misrepresentation of model performance -- one of the
original pitfalls of traditional evaluation. In this work, we introduce BeLUGA,
an analysis method for evaluating behavioural learning considering
generalisation across dimensions of different granularity levels. We optimise
behaviour-specific loss functions and evaluate models on several partitions of
the behavioural test suite controlled to leave out specific phenomena. An
aggregate score measures generalisation to unseen functionalities (or
overfitting). We use BeLUGA to examine three representative NLP tasks
(sentiment analysis, paraphrase identification and reading comprehension) and
compare the impact of a diverse set of regularisation and domain generalisation
methods on generalisation performance.Comment: 16 pages, 1 figure. To be published in the Transactions of the
Association for Computational Linguistics (TACL). This preprint is a pre-MIT
Press publication versio
Checking HateCheck: a cross-functional analysis of behaviour-aware learning for hate speech detection
Behavioural testing -- verifying system capabilities by validating
human-designed input-output pairs -- is an alternative evaluation method of
natural language processing systems proposed to address the shortcomings of the
standard approach: computing metrics on held-out data. While behavioural tests
capture human prior knowledge and insights, there has been little exploration
on how to leverage them for model training and development. With this in mind,
we explore behaviour-aware learning by examining several fine-tuning schemes
using HateCheck, a suite of functional tests for hate speech detection systems.
To address potential pitfalls of training on data originally intended for
evaluation, we train and evaluate models on different configurations of
HateCheck by holding out categories of test cases, which enables us to estimate
performance on potentially overlooked system properties. The fine-tuning
procedure led to improvements in the classification accuracy of held-out
functionalities and identity groups, suggesting that models can potentially
generalise to overlooked functionalities. However, performance on held-out
functionality classes and i.i.d. hate speech detection data decreased, which
indicates that generalisation occurs mostly across functionalities from the
same class and that the procedure led to overfitting to the HateCheck data
distribution.Comment: 9 pages, 5 figures. Accepted at the First Workshop on Efficient
Benchmarking in NLP (NLP Power!
Implementation of a 3D Coupled Hydrodynamic–Biogeochemical Model in Kuwait Bay
Production of farmed fish is increasing worldwide and in areas which have traditionally not had large scale farming, specifically regions of high sea temperature. This research presents a methodology to assess the impacts of these developments on water quality and to manage them in the context of other discharges into the marine environment. Kuwait Bay, in Kuwait, is used as a case study for these types of environments, where the impacts of finfish farms are assessed regarding their location by implementing a 3D coupled hydrodynamic–biogeochemical model. The model was validated against a monthly climatology of field data for hydrodynamics and biogeochemical parameters. Results show that the impact of a farm size with an average historical production is minimal, with a slight increase in nutrient concentrations (0.4%) and in chlorophyll-a and oxygen (less than 1%) compared to the baseline (no farm). When the farm was located outside the bay, at the southern coast, the impact was even smaller. This suggests that the flushing conditions of the location are a prime consideration and can help mitigate the impacts of larger farm sizes
Propiedades psicométricas de las escalas expectativas de resultado, metas y satisfacción académica en estudiantes de un instituto de Trujillo
Este estudio de tipo tecnológico y diseño psicométrico determinó las propiedades psicométricas
de expectativas de resultado, metas y satisfacción académica en estudiante de un instituto de
Trujillo, estas escalas responden a las variables fundamentales del modelo de persistencia
académica, basado en la Teoría Social Cognitiva de la Carrera. En esta investigación
participaron 289 mujeres y 261 hombres de distintas carreras, entre 16 y 27 años. Se estableció
la validez de contenido por criterio de jueces alcanzando valores muy adecuados de .93 a 1 en
el coeficiente V de Aiken; asimismo, la validez de constructo de la estructura interna mediante
la correlación ítem-test con valores muy buenos de .41 a .76; y el análisis factorial
confirmatorio, que en los modelos unidimensionales reporta índices aún inaceptables, a
diferencia del modelo donde covarían las tres escalas que reporta un X2/gl=3.98, GFI=.85,
RMSEA=.074, SRMR=.057, CFI=.87, TLI=.86, denotando un ajuste próximo a bueno, que en
la re-especificación alcanza índices de X2/gl=3.19, GFI=.87, RMSEA=.063, SRMR=.053,
CFI=.90, TLI=.89, con cargas factoriales y covarianzas >.30 de criterio óptimo, que demuestra
buen ajuste del instrumento al contexto de estudio. La confiabilidad mediante el método de
consistencia interna por el coeficiente Omega alcanzó un valor de .88, en Metas y Expectativas
académicas de resultado, en las subescalas Extrínseca de .88, e Intrínseca de .80, en Satisfacción
académica de .87, todos de criterio aceptable. Se elaboró baremos generales para cada escala,
asimismo, específicos según sexo (expectativa académica – intrínseca) y edad (satisfacción
académica)
Incentivos tributarios y su efecto en la recaudación del impuesto predial en la Municipalidad Distrital Veintiséis de Octubre - Piura, 2020
La presente investigación tuvo como objetivo determinar el efecto de los incentivos
tributarios en la recaudación del impuesto predial de la municipalidad distrital de
Veintiséis de Octubre - Piura, 2020. La investigación es de carácter descriptivocorrelacional. Como instrumento para la recolección de datos se utilizó un
cuestionario con escala de Likert, el cual se aplicó a un muestreo probabilístico
estratificado conformado por 379 contribuyentes registrados en el sistema de
recaudación del impuesto predial de la municipalidad distrital Veintiséis de OctubrePiura, 2020. Para medir la confiabilidad se sometió a la prueba de Alfa de
Cronbach. Entre los principales resultados se estableció, que los incentivos
tributarios tienen un efecto positivo en la recaudación tributaria del impuesto
predial. Asimismo un 55.2% y 17.9% de los contribuyentes están “De acuerdo” y “Ni
de acuerdo ni en desacuerdo”, con la afirmación que indica que tienen
conocimiento de los incentivos tributarios; respecto a las normas relacionadas a los
incentivos tributarios un 43.3% y 31.4% de contribuyentes respondieron estar “De
acuerdo” y “Ni de acuerdo ni en desacuerdo” con la afirmación que indica que
tienen conocimiento de dichas normas. Se evaluó el desempeño de labor de
promoción que realiza la municipalidad, los principales hallazgos indican que el
31.66 % y 30.61% de los contribuyentes consideran “adecuadas” e “inadecuadas”
estas labores. De la misma manera se evaluó la labor de campañas que realiza la
municipalidad, el 30.08% y 29.29% de los contribuyentes consideran “adecuadas” e
“inadecuadas” estas labores. Se llegó a la conclusión que, existe un efecto positivo
entre los incentivos y la recaudación tributaria lo que significa que, a mayor nivel
de incentivos tributarios, será mayor el nivel de recaudación del impuesto predial en
la municipalidad distrital Veintiséis de Octubre- Piura, 2020, esto a su vez es
sustentado mediante el diagrama de dispersión.The present research aimed to determine the effect of tributaries incentives in the
collection of property tax of the district municipality of Twenty six de October- Piura,
2020. The research is descriptive- correlational. As an instrument for data
collection, a questionnaire with a Likert scale was used, was applied to a stratified
probability sample made up of 379 contributors registered in the collection system
of the property tax of the district municipality Twenty six of October- Piura, 2020.To
measure reliability, the Cronbach's Alpha test was submitted. Among the main
results, it was established that tax incentives have a positive effect on the collection
of property taxes. Likewise, 55.2% and 17.9% of taxpayers "Agree" and "Neither
agree nor disagree”, with the statement indicating that they are aware of tax
incentives; about related standards related to tax incentives, 43.3% and 31.4% of
taxpayers answered that they "Agree" and "Neither agree nor disagree" with the
statement that indicates that they are aware of said regulations. The performance of
promotion work carried out by the municipality was evaluated; the main findings
indicate that 31.66% and 30.61% of taxpayers consider these tasks "adequate" and
"inappropriate". In the same way, the campaign work carried out by the municipality
was evaluated, 30.08% and 29.29% of taxpayers consider these tasks adequate
and inappropriate. The conclusion was reached than exists a positive effect
between incentives and the tributary collection which means that, to higher level of
tributaries incentives, will be greater the level of collection of property tax in the
district municipality Twenty six of October- Piura, 2020, this in turn is sustained by
the scatter plot.Tesi
Inteligencia emocional en los trabajadores de una empresa privada del rubro de servicios de Lima Metropolitana, 2019
La presente investigación titulada “Inteligencia emocional en los trabajadores de una
empresa privada del rubro de servicios de Lima Metropolitana, 2019”, tuvo como objetivo
general determinar el nivel de la variable Inteligencia Emocional, en los trabajadores.
El tipo de estudio es descriptivo, el diseño es no experimental y de corte transversal.
La población está conformada por 65 trabajadores. Para la medición de la Inteligencia
emocional se utilizó el inventario ICE de Bar-On adaptado a la realidad peruana por Nelly
Ugarriza Chávez. Está formado de 133 ítems, tipo Likert con cinco opciones de respuesta,
evalúa el cociente emocional general compuesto por cinco componentes: intrapersonal,
interpersonal, adaptabilidad, manejo de estrés y estado de ánimo. A través del Alfa de
Cronbach, se confirmó la confiabilidad de la prueba, cuyo resultado fue 0,885. La base de
datos se procesó en el software estadístico SPSS versión 24.
Finalmente, los resultados de la investigación, de acuerdo con el objetivo general
planteado, el nivel de la inteligencia emocional en los trabajadores es de 50.77% (nivel
promedio), 46.15% (nivel bajo) y 3.08% (nivel extremadamente bajo). Existe un mayor
porcentual del nivel promedio
Evaluación de gestión pública y participación ciudadana en una entidad educativa pública de San Juan de Lurigancho
Esta investigación fue titulada “Evaluación de la gestión pública y la
participación ciudadana en una institución educativa pública de San Juan de
Lurigancho 2023”. Este trabajo demostró la correlación existente entre las
variables. La población objeto de estudio fueron los padres de familia de una
institución educativa pública y la muestra fueron 115 padres que respondieron
una encuesta mediante formulario Google, en donde se obtuvo información
importante y que validó la hipótesis alterna. Se utilizó el coeficiente de
correlación Rho de Spearman para comprobar si existía relación significativa
entre la variable participación ciudadana y la evaluación de la gestión pública
para explicar que la participación ciudadana podría resolver muchos de los
problemas que existen en el control oportuno y estratégico de las entidades
públicas pertenecientes al sector educación. La contraloría y otros órganos
rectores no se abastecen para hacer una evaluación, monitoreo y control
exhaustivo de las instituciones educativas. Se utilizó tablas de frecuencia como
herramientas para visibilizar los hallazgos de las variables tanto sus
antecedentes y los resultados apuntan a que la encuesta aplicada mediante las
TIC por los formularios Google, podría resolver la brecha existente entre ambas
variables
Reflexiones sobre el cuidar-cuidado de enfermería : estudio etnográfico en enfermeras docentes de la Universidad Nacional Mayor de San Marcos
El propósito de esta Tesis Doctoral fue esclarecer las representaciones sociales (RS, a seguir) de las enfermeras docentes de la Escuela Académico Profesional de Enfermería de la Universidad Nacional Mayor de San Marcos (EAPE-UNMSM) acerca del cuidar/cuidado, esencia y asunto epistémico, filosófico de la profesión –no obstante su uso frecuente y su reconocida indisociabilidad con la praxis de enfermería– hasta ahora no estudiado a pesar de constituirse en uno de los temas más controvertidos y pocas veces descritos de manera clara en los testimonios conceptuales, filosóficos, antropológicos, existenciales de ellas, en tanto estar bordeando la mencionada escuela sus 42 años desde su fundación; ellas como sujetos de estudio tienen conocimientos particulares que les permiten elaborar comportamientos y comunicación con sus pares, con alumnos, con usuarios, contextualizandos en los que se dan las RS que se constituyen en unidad de análisis referente a la esencia de su pensar-hacer del cuidar/cuidado en su cotidiana enseñanza o asistencia.
Es por ello que la trayectoria metodológica ha sido muy flexible, que permitió analizar hallazgos redefiniendo, reelaborando deconstrucciones-construcciones de los significados y significantes. Los métodos cualitativos que usé fueron el etnográfico-etnometodológico que posibilitó ver el asunto desde adentro, las técnicas fueron la entrevista semiestructurada y la observación etnográfica. La hermenéutica como estudio interpretativo de los testimonios, me ayudó a reconstruir cinco temáticas de significados: cautelar la vida de las personas, el empoderamiento del autocuidado, protección integral, visión antropológica de la salud, y condiciones para las competencias. En la red de interacciones se destacan el anclaje de 22 constructos: libertad, responsabilidad, intelecto, voluntad, sensibilidad, respuestas humanas, desvelo, perspectiva holística, alerta, compartir, transacción, alteridad, dependencia, necesidades, compromiso, tarea humanitaria, consejería, actitudes, procesos, liderazgo, información y diferenciación. Así mismo cuatro temáticas de significantes: rescate del autocuidado, reafirmando la dignidad humana, atención integral: cuestión de decisiones y el agobiante trabajo las mismas que derivan de taxonomías etnográficas; en la red de interacciones se destacan el anclaje de 23 constructos: condiciones adecuadas, responsabilidad compartida, maneras, creatividad, evidencias, promoción, ayuda, empoderamiento, formas de vida, diario vivir, rescatar, ser humano, soledad del enfermo, bioseguridad, devoción, cuerpo vivo, modelos de atención, oportunidad, valentía, consistencia, preocupación, alianzas, calidad.-- The purpose of this Doctoral Thesis was to clear up the teachers nurses´s social representations (SR, ahead) San Marcos National Major University Nurses’ School (SN-UNMSM) about the care-caring, essence and epistemic and philosophic themes of the profession –although the frequent use and its recognized non separate with the praxis– until now it has not been studied, nevertheless it has been constituted in one the issues most controversial a few times clearly described in their work and speech: concepts, philosophic, anthropologic, existential terminology of nursing teachers until now in its forty two years. The nursing teachers, subjet of this study, have personal knowledge that allow them to develop behaviors and peers interaction in real daily context with their students, users, therefore they have SR. These are the analysis unit. The methodology has been very flexible, back and forth style, in order to be able to analyzing redefining, remaking deconstructions-constructions on the meaning and significant. The qualitative method that I used was the ethnographic-etnomethodology, which allowed me to see the object, from inside, the techniques were the interview semistructured and the observation ethnographic.
The hermeneutic one allow me to analyze their discourses literally and allowed the reconstruction of five thematic meanings: to caution the persons life, the empowerment of self caring, integral protection, anthropologic perspective of the health and conditions for competences. In the net of interactions stood up the anchorage of twenty two constructs: freedom, responsibility, intellect, will, sensibility, awakening, holistic perspective, alert, share, transaction, the other, dependence, necessities, agreement, humanitarian task, council, attitudes, processes, leaderships, information and differentiation. Besides there is four thematic significant: rescue of self caring, reaffirming human dignity, integral care, resolution affairs and bent down work, the same that derivative from ethnographics taxonomies. In the net of interactions it stood up the anchorage of twenty three constructs: suitable conditions, agreement responsibility, ways, creativity, evidences, promotion, help, empowerment, ways of living, daily routine, rescue, human being, sick´s loneness, biosequirity, devoutness, human body, models of caring, opportunity, courageous, consistency, worry, alliance, quality.Tesi
- …