    Multi-word expression-sensitive word alignment

    This paper presents a new word alignment method which incorporates knowledge about Bilingual Multi-Word Expressions (BMWEs). Our method of word alignment first extracts such BMWEs in a bidirectional way for a given corpus and then starts conventional word alignment, considering the properties of BMWEs in their grouping as well as their alignment links. We give partial annotation of alignment links as prior knowledge to the word alignment process; by replacing the maximum likelihood estimate in the M-step of the IBM Models with the Maximum A Posteriori (MAP) estimate, prior knowledge about BMWEs is embedded in the prior in this MAP estimate. In our experiments, we saw an improvement of 0.77 Bleu points absolute in JP–EN. Except for one case, our method gave better results than the method using only BMWEs grouping. Even though this paper does not directly address the issues in Cross-Lingual Information Retrieval (CLIR), it discusses an approach of direct relevance to the field. This approach could be viewed as the opposite of current trends in CLIR on semantic space that incorporate a notion of order in the bag-of-words model (e.g. co-occurences)

    ADAPT at SemEval-2018 Task 9: Skip-Gram Word Embeddings for Unsupervised Hypernym Discovery in Specialised Corpora

    This paper describes a simple but competitive unsupervised system for hypernym discovery. The system uses skip-gram word embeddings with negative sampling, trained on specialised corpora. Candidate hypernyms for an input word are predicted based on cosine similar- ity scores. Two sets of word embedding mod- els were trained separately on two specialised corpora: a medical corpus and a music indus- try corpus. Our system scored highest in the medical domain among the competing unsu- pervised systems but performed poorly on the music industry domain. Our approach does not depend on any external data other than raw specialised corpora

    Size Matters: The Impact of Training Size in Taxonomically-Enriched Word Embeddings

    Word embeddings trained on natural corpora (e.g., newspaper collections, Wikipedia or the Web) excel in capturing thematic similarity (“topical relatedness”) on word pairs such as ‘coffee’ and ‘cup’ or ’bus’ and ‘road’. However, they are less successful on pairs showing taxonomic similarity, like ‘cup’ and ‘mug’ (near synonyms) or ‘bus’ and ‘train’ (types of public transport). Moreover, purely taxonomy-based embeddings (e.g. those trained on a random-walk of WordNet’s structure) outperform natural-corpus embeddings in taxonomic similarity but underperform them in thematic similarity. Previous work suggests that performance gains in both types of similarity can be achieved by enriching natural-corpus embeddings with taxonomic information from taxonomies like WordNet. This taxonomic enrichment can be done by combining natural-corpus embeddings with taxonomic embeddings (e.g. those trained on a random-walk of WordNet’s structure). This paper conducts a deep analysis of this assumption and shows that both the size of the natural corpus and of the random-walk coverage of the WordNet structure play a crucial role in the performance of combined (enriched) vectors in both similarity tasks. Specifically, we show that embeddings trained on medium-sized natural corpora benefit the most from taxonomic enrichment whilst embeddings trained on large natural corpora only benefit from this enrichment when evaluated on taxonomic similarity tasks. The implication of this is that care has to be taken in controlling the size of the natural corpus and the size of the random-walk used to train vectors. In addition, we find that, whilst the WordNet structure is finite and it is possible to fully traverse it in a single pass, the repetition of well-connected WordNet concepts in extended random-walks effectively reinforces taxonomic relations in the learned embeddings

    Optimizacion y rediseno de la flota de camiones de la empresa transporte Mora Hnos. Ltda

    156 p.La presente memoria tiene un enfoque en el modelamiento matematico y su aplicación en el sistema logístico de transporte de la empresa Transportes Mora Hnos. Ltda., teniendo como objetivo principal el optimizar los aspectos que conforman la flota, para así obtener mejores retornos y prestar un mejor servicio al cliente. Para esto se probó con distintos métodos y modelos de investigación de operaciones. Los pasos a seguir para la realización de esta son: conocer la problemática de la empresa, para lo cual es necesario realizar un reconocimiento del proceso de extracción del azúcar a granel de las distintas plantas de IANSA y la respectiva cadena de suministro hacia los distintos clientes de dicha empresa. Posteriormente se hizo necesario introducirse en el tema de logística de transporte y abastecimiento, para luego buscar las alternativas de solución a través de herramientas matemáticas, buscando los modelos y/o metodologías aplicables según la naturaleza del problema a abordar, lo que correspondería a los aspectos teóricos de la memoria. Dichos modelos y/o metodologías deberán arrojar los respectivos resultados que finalmente serán interpretados entregando una conclusión que permita solucionar la totalidad o gran parte de la problemática de la empresa o también entregar las recomendaciones necesarias para dicho objetivo. Dentro de la alternativa informática que se manejo para la resolución de los modelos Matemáticos fue la herramienta incluida en el paquete computacional Microsoft Office 2003, la que lleva por nombre Excel Solver y su versión mas avanzada Premium Solver, cuya ventaja es que posee una gran compatibilidad con las hojas de calculo de Microsoft Excel y sus funciones, lo que permite observar de inmediato los cambios en las soluciones. Los resultados obtenidos, en primer lugar, tienen relación con el tamaño optimo de flota en consideración a la demanda en el ciclo de 12 meses estudiados. En base a lo anterior, el tamaño óptimo estimado de flota es 16 camiones. Cifra que entrega un menor costo de operación para la empresa. Posteriormente se obtuvo el resultado óptimo, en relación a los costos, de la localización estratégica para la ubicación de un grupo de camiones que atiendan la demanda del cliente a un costo mínimo. Arrojando este un ahorro para la empresa, información obtenida debido a que se comparo el resultado con la alternativa optima, siendo esta el problema de transporte, con un ahorro para ese caso de un 1,6%. Cifra poco significativa, pero explicativa. Considerando lo anterior, se estima que los resultados han sido satisfactorios en relación a los problemas prácticos de la empresa y se hace necesario recomendar un estudio económicos de los factores

    Analysis of the Influence of Sport Cyclists on Narrow Two-Lane Rural Roads Using Instrumented Bicycles and Microsimulation

    [EN] It is frequent to see cyclists on Spanish two-lane rural roads, both riding individually and in groups. However, these roads were designed only for motorized vehicles, most of them having a narrow section with a null or impassable shoulder. Currently, drivers and cyclists have to share roads and interact, affecting both safety and traffic operation. The possibility of overtaking offers an improvement in traffic operation, however on narrow roads it can be difficult, meaning a greater invasion of the opposite lane thus creating more dangerous situations and implying a higher overtaking duration. To analyze the phenomenon, field data from instrumented bicycles and naturalistic videos were collected, then some performance measures to characterize safety and traffic operation were obtained. To increase the number of overtaking manoeuvres and performance measures obtained from observations, microsimulation has been used by adapting a model to include cyclists and their interaction with motorized vehicles. The traffic microsimulator was calibrated and validated with field data. The results show that cycle traffic presence decreases motorized vehicle average travel speed and increases percent followers and delays. Microsimulation can be used to study other traffic scenarios and can help road administrations to safely and efficiently integrate cyclists to vehicular traffic on rural roads.This research was funded by the Ministry of Science, Innovation, and Universities, grant number TRA2016-80897-R and project titled: "Improvement of safety and operation of two-lane rural roads with cyclists (Bike2Lane)"; and by the Direccion General de Trafico of Spain, grant number SPIP2017-02280 and project title: "Road safety countermeasures for two-lane rural roads with groups of cyclists (Safe4Bikes)".Moll Montaner, S.; López-Maldonado, G.; García García, A. (2021). Analysis of the Influence of Sport Cyclists on Narrow Two-Lane Rural Roads Using Instrumented Bicycles and Microsimulation. Sustainability. 13(3):1-17. https://doi.org/10.3390/su13031235S11713

    English WordNet Taxonomic Random Walk Pseudo-Corpora

    This is a resource description paper that describes the creation and properties of a set of pseudo-corpora generated artificially from a random walk over the English WordNet taxonomy. Our WordNet taxonomic random walk implementation allows the exploration of different random walk hyperparameters and the generation of a variety of different pseudo-corpora. We find that different combinations of the walk’s hyperparameters result in varying statistical properties of the generated pseudo-corpora. We have published a total of 81 pseudo-corpora that we have used in our previous research, but have not exhausted all possible combinations of hyperparameters, which is why we have also published a codebase that allows the generation of additional WordNet taxonomic pseudo-corpora as needed. Ultimately, such pseudo-corpora can be used to train taxonomic word embeddings, as a way of transferring taxonomic knowledge into a word embedding space

    Synthetic, Yet Natural: Properties of WordNet Random Walk Corpora and the impact of rare words on embedding performance

    Creating word embeddings that reflect semantic relationships encoded in lexical knowledge resources is an open challenge. One approach is to use a random walk over a knowledge graph to generate a pseudo-corpus and use this corpus to train embeddings. However, the effect of the shape of the knowledge graph on the generated pseudo-corpora, and on the resulting word embeddings, has not been studied. To explore this, we use English WordNet, constrained to the taxonomic (tree-like) portion of the graph, as a case study. We investigate the properties of the generated pseudo-corpora, and their impact on the resulting embeddings. We find that the distributions in the psuedo-corpora exhibit properties found in natural corpora, such as Zipf’s and Heaps’ law, and also ob- serve that the proportion of rare words in a pseudo-corpus affects the performance of its embeddings on word similarity

    Relación de la enzima alfa-amilasa salivar con la presencia de sintomatología psicopatologica internalizada auto- y hetero-observada en una muestra de niños y niñas de entre 7 y 12 años de edad: un estudio piloto.

    Contribución científica en forma de póster.Introducción: La medición de la actividad enzimática (AAAs) y del flujo de secreción (FSAAs) de la enzima alfa-amilasa salivar han sido propuestos por diversos grupos de investigación como posibles marcadores biológicos indirectos, no invasivos, y de bajo coste, del nivel de actividad noradrenérgica periférica/central. Dicha actividad noradrenérgica se sustenta, esencialmente, gracias a la actividad preponderante del denominado Sistema Locus Coeruleus-Noradrenalina (LC-NA), un sistema básico en la modulación de diversas funciones atencionales, cognitivas ejecutivas, así como en la regulación de los estados de ánimo. Material y Método: En nuestro estudio piloto (N = 13; 9 niños, 4 niñas; Edad media ± DT = 10,23 ± 1,53) se analizó la relación entre ambos marcadores salivares junto al parámetro flujo de secreción salivar total (registrados a lo largo de un proceso de evaluación neuropsicológica escolar) y diversas medidas auto (CDI; ansiedad, depresión y depresión total) y hetero-reportadas (escalas de psicopatología internalizada del TRF: ansiedad- depresión, depresión-aislamiento, alteraciones psicosomáticas y psicopatología internalizante total). Resultados: Los análisis estadísticos basados en el cálculo de coeficientes de correlación producto-momento de Pearson (de tipo parcial al controlar el efecto de la variable IMC), revelaron correlaciones estadísticamente significativas y directas entre el FSAAs y las puntuaciones en la escala ansiedad-depresión (p < 0,039) y psicopatología internalizante total del TRF (p < 0,012), así como una tendencia a la significación en el caso de las puntuaciones para la escala de alteraciones psicosomáticas (p = 0,054) de esa misma prueba. Del mismo modo, se observaron tendencias a la significación en la asociación directa entre las subescalas ansiedad-depresión (p = 0.065) y psicopatología internalizante total (p = 0.083) y la medida del flujo salivar total. Por otro lado, se observaron asociaciones inversas estadísticamente significativas entre la variable flujo salivar total y las puntuaciones de ansiedad (p < 0.01) y depresión total (p < 0.01) obtenidas a través del CDI. Discusión: Estos resultados preliminares de este estudio piloto abren una interesante línea de trabajo en nuestro laboratorio acerca de la utilidad de la medición de la AAAs, FSAAs y FST como posibles marcadores biológicos, no invasivos, y de bajo coste, aptos para su empleo con poblaciones pediátricas. Dichos marcadores, están relacionados con el grado de actividad noradrenérgica periférica/central desarrollada por el sistema LC y con la actividad del SNV, que a su vez están implicados en la regulación de los estados afectivos. Estudios recientes han mostrado bajos niveles basales de alfa-amilasa salivar en el caso de pacientes jóvenes diagnosticados de su primer episodio depresivo (Cubala y Landoski, 2014) y en participantes infantiles con mayor sintomatología depresiva heteroobservada (Vigil et al., 2006; Maldonado et al., 2014; Maldonado, enviado). Estos resultados complementan las observaciones realizadas anteriormente por nuestra laboratorio (Maldonado et al., 2014; Maldonado, enviado).Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech