449 research outputs found

    Readability Assessment and Automatic Text Simplification. The Analysis of Basque Complex Structures

    Get PDF
    Tesis doctoral titulada “Euskarazko egitura sintaktiko konplexuen analisirako eta testuen sinplifikazio automatikorako proposamena / Readability Assessment and Automatic Text Simplification. The Analysis of Basque Complex Structures”, defendida por Itziar Gonzalez Dios en la Universidad del País Vasco (UPV/EHU) y elaborada bajo la dirección de las doctoras Arantza Díaz de Ilarraza (Departamento de Lenguajes y Sistemas Informáticos) y María Jesús Aranzabe (Departamento de Lengua Vasca y Comunicación). La defensa tuvo lugar el 23 de junio de 2016 ante el tribunal formado por los doctores Kepa Sarasola (Presidente, Universidad del País Vasco (UPV/EHU)), Ricardo Etxepare (Secretario, Centre National de la Recherche Scientifique-IKER) y Giulia Venturi (Vocal, Instituto di Linguistica Computazionale Antonio Zampolli - Consiglio Nazionale delle Ricerche) y la tesis obtuvo la mención Cum Laude y Doctor Internacional.Ph.D. thesis entitled “Euskarazko egitura sintaktiko konplexuen analisirako eta testuen sinplifikazio automatikorako proposamena / Readability Assessment and Automatic Text Simplification. The Analysis of Basque Complex Structures” written by Itziar Gonzalez Dios at the University of Basque Country (UPV/EHU) under the supervision of the Ph.D. Arantza Díaz de Ilarraza (Languages and Computer Systems Department) and Ph.D. María Jesús Aranzabe (Basque Language and Communication Department). The viva voce was held on the 23rd June 2016 and the members of the commission were the Ph.D. Kepa Sarasola (President, University of Basque Country (UPV/EHU)), Ph.D. Ricardo Etxepare (Secretary, Centre National de la Recherche Scientifique-IKER) and Ph.D. Giulia Venturi (Vocal, Instituto di Linguistica Computazionale Antonio Zampolli - Consiglio Nazionale delle Ricerche) and the thesis obtained the mention Cum Laude and International Doctor.Esta tesis doctoral ha sido realizada con una beca predoctoral del Gobierno Vasco. Referencia: BF1-2011-392

    Traducción automática de conjuntos de datos para la construcción de sistemas de pregunta/respuesta mediante aprendizaje automático

    Full text link
    [ES] Los sistemas de pregunta/respuesta contruidos mediante técnicas de aprendizaje automático requieren de conjuntos de datos. A día de hoy, se cuenta con dichos conjuntos en idiomas muy hablados como el inglés o el chino, pero no para idiomas más locales como pude ser el euskera. El objetivo de este trabajo es, partiendo de conjuntos de datos en inglés, crear sus respectivas versiones en castellano, euskera y catalán. Una vez creados estos conjuntos empleando técnicas de traducción automática, se procede a entrenar el modelo predictivo de pregunta/respuesta para cada idioma. Hay que tener en cuenta no solo aquellos modelos entrenados con un solo idioma, sino aquellos que emplean métodos multilingües, ya que actualmente estos últimos tienen bastante peso en el estado del arte del procesamiento del lenguaje natural y, específicamente, en las tareas de pregunta/respuesta.[EN] Building Question / answer systems by using machine learning techniques require data sets. Nowadays, these sets are available in highly spoken languages such as English or Chinese, but not for regional languages such as Basque. The aim of this work is to create datasets in Spanish, Basque and Catalan from the English version. After creating these sets by Machine Translation techniques, we will proceed to train the predictive QA model for each language. We must take into account that we can train models using just one or multiple languages. We are taking into consideration multilingual models due to their importance in the NLP state of  the art and, specifically, in QA tasks.[CA] Les tasques d’aprenentatge automàtic basades en sistemes de pregunta/resposta requereixen de conjunts de dades per entrenar models predictius. Actualment, es compta amb aquests conjunts en idiomes molt parlats com l’anglès o el xinès, però no per a idiomes més locals com pot ser el basc. L’objectiu d’aquest treball és, partint de conjunts de dades en anglès, crear les seves respectives versions en castellà, basc i català. Una vegada que estiguin creats aquests conjunts emprant tècniques de traducció automàtica, es procedeix a entrenar el model predictiu de pregunta/resposta per a cada idioma. Cal tenir en compte no només aquells models entrenats amb un sol idioma, sinó aquells que fan servir mètodes multilingües (Per exemple, entrenament en un idioma i validació en un altre), ja que actualment aquests últims tenen prou pes en l’estat de l’art del processament del llenguatge natural i, específicament, en les tasques de pregunta/resposta.López Ramírez, JA. (2020). Traducción automática de conjuntos de datos para la construcción de sistemas de pregunta/respuesta mediante aprendizaje automático. http://hdl.handle.net/10251/151719TFG

    El nombre de "Kaiskata"

    Get PDF
    El topónimo Kaiskata (lat. Cascantum) está testimoniado en monedas celtas (beronas) que comparten las características lingüísticas y ortográficas de las cecas celtibéricas limítrofes con el -o al sur del- río Ebro. Hay muchas razones para creer que el topónimo es indoeuropeo, posiblemente, un participio femenino activo celta en -ntā. Su origen es disputado; puede ser debido a un proceso secundario bien conocido de glide accretion especialmente común precediendo a silbantes y palatales.El topònim Kaiskata (lat. Cascantum) està testimoniat en monedes cèltiques (berones) que comparteixen les característiques lingüístiques i ortogràfiques de les seques celtibèriques limítrofes amb el -o al sud del- riu Ebre. Hi ha moltes raons per creure que el topònim és indoeuropeu, possiblement un participi femení actiu cèltic en -ntā. El seu origen és disputat; pot ser degut a un procés secundari ben conegut de glide accretion especialment comú que precedeix sibilants i palatals.The place name Kaiskata (lat. Cascantum) is attested on Celtic (Beronian) coins sharing the linguistic and orthographic features of the Celtiberian mints bordering -or to the south of- the Ebro river. There is every reason to believe that the place name is an Indo-European, possibly Celtic active feminine participle in -ntā. The origin of its is disputed; it may be due to a well known secondary process of glide accretion especially common before sibilants and palatals

    Euskera Antiguo y Clásico

    Get PDF
    Joaquín Gorrochategui, Iván Igartua y Joseba Andoni Lakarra, editores.«Monumenta Linguae Vasconum 5: Periodización y cronología» (MINECO, FFI2016-76023-P), «Historia de la lengua vasca y lingüística histórico-comparada» (HLMV-LHC) (Gobierno Vasco, GIC. IT698-13), «Lingüística Teórica y Diacrónica: Gramática Universal, lenguas indoeuropeas y lengua vasca» (LingTeDi) (UPV/EHU, UFI11/14)

    Análisis terminológico de la tecnología de traducción de calidad: las empresas linguisticas (LTC Organizer)

    Get PDF
    El impacto de las tecnologías en el contexto global está configurando un nuevo tipo de comunicación empresarial interrelacionada y alimentada por la Web 2.0, un espacio interactivo que ha transformado el proceso traductor, así como su perfil profesional. Las empresas multinacionales ya no buscan una lengua vehicular y canalizan su eco internacional a través de plurilingüismo. En el presente trabajo, se realizará una reflexión sobre los profundos cambios en el mundo del traductor así como dos herramientas TIC de gran importancia: corpus y software libre. También se expondrán diferentes puntos de vista acerca de la evaluación de calidad de la traducción, así como una visión global del panorama de las empresas lingüísticas. Por último realizaremos un análisis contrastivo de los productos ofertados por 10 empresas lingüísticas europeas de distinto reclamo internacional para confirmar o descartar los cambios tecnológicos anteriormente expuestosGrado en Traducción e Interpretació

    El gallego y el castellano en contacto: code-switching, convergencias y otros fenómenos de contacto entre lenguas

    Get PDF
    Las lenguas acompañan al hombre en su día a día prácticamente desde siempre describiendo realidades y creando unas totalmente nuevas, pero las lenguas en sí mismas son unas creaciones fascinantes que se desarrollan, cambian, se transforman y se actualizan por medio de sus hablantes. El contacto entre lenguas crea, además, unos fenómenos que demuestran una gran capacidad de los usuarios de adaptar y/o adoptar las estructuras gramaticales, de inventar vocablos nuevos y de unir dos lenguas en una. […] El presente libro trata la cuestión del contacto entre dos lenguas muy próximas geográfica y tipológicamente que son el gallego y el castellano. La relación que tienen es bastante compleja siendo el gallego la lengua minorizada por la influencia de la lengua oficial en España que es el castellano

    Sobre el problema de la enseñanza de las humanidades en la Educación Secundaria

    Get PDF
    La reflexión sobre la importancia de las disciplinas humanísticas en la formación académica y personal de los estudiantes ha originado un largo debate que históricamente ha enfrentado posiciones contrarias y que en la actualidad dista de haber acabado. En el marco de estas consideraciones cobra particular relevancia el análisis sobre la evolución de estos estudios en la Educación Secundaria española y el papel que estos contenidos tienen en los principales sistemas educativos de los países de la Unión Europea.The reflection on the importance of humanistic subjects in the academic and personal training of the students has started a long historical discussion between opposing positions which has not finished yet. Within this framework, the analysis of the evolution of these studies in the Spanish Secondary Education and the role of these contents in the principal educational systems of the European Union's member countries have taken a particular relevance

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas
    corecore