5 research outputs found

    Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

    Get PDF
    La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf

    Predicción automática de la dificultad de preguntas abiertas de respuesta corta con propósitos educativos

    Get PDF
    En la construcción de preguntas de evaluación, el evaluador se enfrenta al problema de elegir las preguntas más apropiadas para diferenciar a los estudiantes de acuerdo con su nivel de habilidad o conocimiento en el tema. Esta elección supone, de un lado, decidir sobre el tipo de pregunta que mejor se ajuste al objetivo buscado, y de otro, seleccionar preguntas con distintos niveles de dificultad que permitan diferenciar los niveles de conocimiento. En relación con el tipo de pregunta, se ha visto la necesidad de introducir las preguntas abiertas en las pruebas, en tanto que la pregunta cerrada, si bien se ha utilizado mucho, no permite medir satisfactoriamente dicho nivel por cuanto la capacidad cognitiva involucrada fundamentalmente en la búsqueda de la respuesta es el reconocimiento de uno de los rae como el elemento asociado a la pregunta. Con la pregunta abierta, en cambio, se evalúan capacidades cognitivas diferentes como la evocación. Para la selección de preguntas con distintos niveles de complejidad, el mayor problema al que se enfrenta el evaluador es precisamente conocer el grado de dificultad asociado a cada una de ellas, para lo cual regularmente, se realizan pilotajes para determinar el grado de dificultad de la pregunta de acuerdo con la calidad de la respuesta dada a cada pregunta por los estudiantes que participan. Todo ello, desde luego, implica altos costos económicos y riesgos de confidencialidad. Resulta necesario, entonces, encontrar un método de predicción automático de la dificultad de las preguntas abiertas y determinar su grado de fiabilidad. Este precisamente fue el objetivo de esta tesis. Para la construcción del modelo predictivo de la dificultad de las preguntas, se utilizó la base de datos de preguntas abiertas y respuestas de estudiantes calificadas SciEntsBank. Se extrajeron tanto manual como automáticamente 51 factores de los 196 ítems del corpus (textos de la pregunta, la respuesta de referencia y la demanda cognitiva). A partir de la combinación racional de los factores, se obtuvieron 10.200 características para cada ítem, y posteriormente se seleccionaron los mejores factores mediante el KBest, un método automático de selección de los mejores factores. A partir de ello, se predijo la dificultad de cada ítem mediante el uso de dos modelos de regresión. Luego de explorar automáticamente entre decenas de miles de modelos usando regresión lineal y máquinas de vectores de soporte, se encontró que el mejor modelo para predecir la dificultad, que oscila entre cero y uno, empleó solamente una de las 10.200 características, log(t6)/log(t{3): la división del logaritmo del número de palabras claves que solo están en la respuesta de referencia, entre el logaritmo del total de palabras claves en el ítem (pregunta y respuesta). Este constituye el aporte fundamental de esta tesis. El grado de error de este modelo estuvo alrededor de 0.16. Fue sorprendente el hallazgo de evidencia empírica de que las populares taxonomías de Bloom y Anderson no contribuyeron a modelar la dificultad del ítem de evaluación de pregunta abierta.Abstract. In the construction of evaluation questions, the evaluator faces the problem of choosing the questions most appropriate to differentiate students according to their level of skill or knowledge in the subject. This election means, on one side, decide on the type of question that best fits the objective sought, and another side, select questions with different levels of difficulty to differentiate levels of knowledge. In relation with the type of question, it has seen the need to put open questions in the tests, in so far as the closed question, although it has been used a lot, it does not allow satisfactorily measure the level aforementioned, because the cognitive ability involved fundamentally in the search of the answer is the recognition of one of the distractors as the element associated with the question. With the open question, however, different cognitive abilities like evocation are evaluated. To select questions with different levels of complexity, the biggest problem facing the evaluator is precisely to know the degree of difficulty associated with each, for which trial tests are regularly done to determine the degree of difficulty of the question according to the quality of the answer to each question by students participating. All this, of course, involves high economic costs and risks of confidentiality.\\ It is necessary, then, to find a method of automatic predicting the difficulty of open questions and determine its degree of reliability. This was precisely the objective of this thesis. To build the predictive model of the difficulty of the questions, the database of open questions and graded student responses SciEntsBank was used. It was extracted both manually and automatically 51 factors out of the 196 items of the corpus (texts of the question, the answer, and cognitive demand). From the rational combination of factors, 10.200 features were obtained for each item, and then the best factors were selected by KBest, an automatic method of selection of the best factors. From this, the difficulty of each item was predicted by using two regression models. After automatically scan between tens of thousands of models using linear regression and support vector machine, it was found that the best model to predict the item difficulty, ranging between zero and one, used only one of the 10.200 features, log(t6)/log(t{3): the division of the logarithm of the number of keywords occurring only in the reference answer, by the logarithm of the total number of keywords in the item (question and answer). This is the fundamental contribution of this thesis. The degree of error of this model was around 0.16. It was surprising the finding of empirical evidence that the popular Bloom's and Anderson's taxonomies did not contribute for modeling the difficulty of an open question.Maestrí

    Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

    Get PDF
    Corpus Linguistics is an empirical methodology which, based on great collections of text - corpus or corpora, attempts to describe the regularities of languages by means of the implementation of computer programs, and in this way to simulate their real use. This work applies Corpus Linguistics to a series of electronic medical histories written in Spanish, which have never been linguistically analyzed before. We do not know the precise form in which these histories were written by doctors or the types of words used when describing an event in a medical subdiscipline. The set of data is formed by 19 medical subdisciplines, which contain their own histories. Each history was tagged in 3 different ways: lemmatization, tokenization, and grammatical part-of-speech, using TreeTagger. Afterwards, the frequencies of tags were described using AntConc. The results found for each subdiscipline show the words that appear with greater frequency. The closed class words were the most commonly used. Some parts of the medical histories were tagged erroneously. On the other hand, examples were found that allowed us to recognize the variability of use of expressions and abbreviations in the medical staff. Also, medical writing at Universidad Nacional de Colombia corroborated Zipf's Law.La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf

    Diccionario electrónico sáliba-español: Una herramienta interactiva para la documentación de la lengua y de la cultura sálibas

    No full text
    It is estimated that half of all languages will face extinction in the next 100 years. However, researchers around the world seek and support participatory forms to document, preserve and revitalize both cultures and indigenous languages in the world in order to resist their imminent extinction. This article describes the creation of an electronic bilingual dictionary for the Sáliba indigenous language of Colombia, an initiative that seeks to document the language, increase the interest of speakers of this language, as well as its prestige in virtual and local environments. The website is divided into three parts: the first one contains georeferencing of Sáliba settlements, an introduction describing the dictionary and a grammar outline showing several linguistic aspects; the second one contains the dictionary entries, a guide and an educational site; and the third one contains information on loanwords, grammemes, anthroponyms, toponyms, morphemes, verbs and conjugations.Estima-se que a metade das línguas existentes poderia desaparecer nos seguintes 100 anos. No entanto, pesquisadores de todo o mundo buscam e apoiam formas participativas de documentar, preservar e revitalizar tanto as culturas quanto as línguas nativas do orbe, e com isso pretenderam contra-arrestar sua desaparição iminente. Este artigo descreve a criação do dicionário bilíngue eletrônico para a língua indígena sáliba da Colômbia, uma iniciativa que busca documentar a língua, aumentar o interesse de seus falantes e aumentar seu prestígio em ambientes virtuais e locais. O portal divide-se em três partes: a primeira contém uma georreferenciação dos povos sálibas, uma introdução que descreve o dicionário e um esboço gramatical que mostra aspectos linguísticos; a segunda, as entradas do dicionário, o manual e uma página pedagógica; a terceira, informação sobre empréstimos, gramemas, antropônimos, topônimos, morfemas, verbos e conjugações.Se estima que la mitad de las lenguas existentes podrían desaparecer en los siguientes 100 años. Sin embargo, investigadores de todo el mundo buscan y apoyan formas participativas de documentar, preservar y revitalizar tanto las culturas como las lenguas nativas del orbe, y con ello han pretendido contrarrestar su desaparición inminente. Este artículo describe la creación del diccionario bilingüe electrónico para la lengua indígena sáliba de Colombia, una iniciativa que busca documentar la lengua, incrementar el interés de sus hablantes y aumentar su prestigio en entornos virtuales y locales. El portal se divide en tres partes: la primera contiene una georreferenciación de los pueblos sálibas, una introducción que describe el diccionario y un esbozo gramatical que muestra aspectos lingüísticos; la segunda, las entradas del diccionario, el manual y una página pedagógica; y la tercera recoge, información sobre préstamos, gramemas, antropónimos, topónimos, morfemas, verbos y conjugaciones

    Evolution over Time of Ventilatory Management and Outcome of Patients with Neurologic Disease∗

    No full text
    OBJECTIVES: To describe the changes in ventilator management over time in patients with neurologic disease at ICU admission and to estimate factors associated with 28-day hospital mortality. DESIGN: Secondary analysis of three prospective, observational, multicenter studies. SETTING: Cohort studies conducted in 2004, 2010, and 2016. PATIENTS: Adult patients who received mechanical ventilation for more than 12 hours. INTERVENTIONS: None. MEASUREMENTS AND MAIN RESULTS: Among the 20,929 patients enrolled, we included 4,152 (20%) mechanically ventilated patients due to different neurologic diseases. Hemorrhagic stroke and brain trauma were the most common pathologies associated with the need for mechanical ventilation. Although volume-cycled ventilation remained the preferred ventilation mode, there was a significant (p < 0.001) increment in the use of pressure support ventilation. The proportion of patients receiving a protective lung ventilation strategy was increased over time: 47% in 2004, 63% in 2010, and 65% in 2016 (p < 0.001), as well as the duration of protective ventilation strategies: 406 days per 1,000 mechanical ventilation days in 2004, 523 days per 1,000 mechanical ventilation days in 2010, and 585 days per 1,000 mechanical ventilation days in 2016 (p < 0.001). There were no differences in the length of stay in the ICU, mortality in the ICU, and mortality in hospital from 2004 to 2016. Independent risk factors for 28-day mortality were age greater than 75 years, Simplified Acute Physiology Score II greater than 50, the occurrence of organ dysfunction within first 48 hours after brain injury, and specific neurologic diseases such as hemorrhagic stroke, ischemic stroke, and brain trauma. CONCLUSIONS: More lung-protective ventilatory strategies have been implemented over years in neurologic patients with no effect on pulmonary complications or on survival. We found several prognostic factors on mortality such as advanced age, the severity of the disease, organ dysfunctions, and the etiology of neurologic disease
    corecore