6,718 research outputs found

    Data analytics 2016: proceedings of the fifth international conference on data analytics

    Get PDF

    Improving the matching of registered unemployed to job offers through machine learning algorithms

    Get PDF
    Dissertation presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business IntelligenceDue to the existence of a double-sided asymmetric information problem on the labour market characterized by a mutual lack of trust by employers and unemployed people, not enough job matches are facilitated by public employment services (PES), which seem to be caught in a low-end equilibrium. In order to act as a reliable third party, PES need to build a good and solid reputation among their main clients by offering better and less time consuming pre-selection services. The use of machine-learning, data-driven relevancy algorithms that calculate the viability of a specific candidate for a particular job opening is becoming increasingly popular in this field. Based on the Portuguese PES databases (CVs, vacancies, pre-selection and matching results), complemented by relevant external data published by Statistics Portugal and the European Classification of Skills/Competences, Qualifications and Occupations (ESCO), the current thesis evaluates the potential application of models such as Random Forests, Gradient Boosting, Support Vector Machines, Neural Networks Ensembles and other tree-based ensembles to the job matching activities that are carried out by the Portuguese PES, in order to understand the extent to which the latter can be improved through the adoption of automated processes. The obtained results seem promising and point to the possible use of robust algorithms such as Random Forests within the pre-selection of suitable candidates, due to their advantages at various levels, namely in terms of accuracy, capacity to handle large datasets with thousands of variables, including badly unbalanced ones, as well as extensive missing values and many-valued categorical variables

    Deep learning in remote sensing: a review

    Get PDF
    Standing at the paradigm shift towards data-intensive science, machine learning techniques are becoming increasingly important. In particular, as a major breakthrough in the field, deep learning has proven as an extremely powerful tool in many fields. Shall we embrace deep learning as the key to all? Or, should we resist a 'black-box' solution? There are controversial opinions in the remote sensing community. In this article, we analyze the challenges of using deep learning for remote sensing data analysis, review the recent advances, and provide resources to make deep learning in remote sensing ridiculously simple to start with. More importantly, we advocate remote sensing scientists to bring their expertise into deep learning, and use it as an implicit general model to tackle unprecedented large-scale influential challenges, such as climate change and urbanization.Comment: Accepted for publication IEEE Geoscience and Remote Sensing Magazin

    Ecological models at fish community and species level to support effective river restoration

    Full text link
    RESUMEN Los peces nativos son indicadores de la salud de los ecosistemas acuáticos, y se han convertido en un elemento de calidad clave para evaluar el estado ecológico de los ríos. La comprensión de los factores que afectan a las especies nativas de peces es importante para la gestión y conservación de los ecosistemas acuáticos. El objetivo general de esta tesis es analizar las relaciones entre variables biológicas y de hábitat (incluyendo la conectividad) a través de una variedad de escalas espaciales en los ríos Mediterráneos, con el desarrollo de herramientas de modelación para apoyar la toma de decisiones en la restauración de ríos. Esta tesis se compone de cuatro artículos. El primero tiene como objetivos modelar la relación entre un conjunto de variables ambientales y la riqueza de especies nativas (NFSR), y evaluar la eficacia de potenciales acciones de restauración para mejorar la NFSR en la cuenca del río Júcar. Para ello se aplicó un enfoque de modelación de red neuronal artificial (ANN), utilizando en la fase de entrenamiento el algoritmo Levenberg-Marquardt. Se aplicó el método de las derivadas parciales para determinar la importancia relativa de las variables ambientales. Según los resultados, el modelo de ANN combina variables que describen la calidad de ribera, la calidad del agua y el hábitat físico, y ayudó a identificar los principales factores que condicionan el patrón de distribución de la NFSR en los ríos Mediterráneos. En la segunda parte del estudio, el modelo fue utilizado para evaluar la eficacia de dos acciones de restauración en el río Júcar: la eliminación de dos azudes abandonados, con el consiguiente incremento de la proporción de corrientes. Estas simulaciones indican que la riqueza aumenta con el incremento de la longitud libre de barreras artificiales y la proporción del mesohabitat de corriente, y demostró la utilidad de las ANN como una poderosa herramienta para apoyar la toma de decisiones en el manejo y restauración ecológica de los ríos Mediterráneos. El segundo artículo tiene como objetivo determinar la importancia relativa de los dos principales factores que controlan la reducción de la riqueza de peces (NFSR), es decir, las interacciones entre las especies acuáticas, variables del hábitat (incluyendo la conectividad fluvial) y biológicas (incluidas las especies invasoras) en los ríos Júcar, Cabriel y Turia. Con este fin, tres modelos de ANN fueron analizados: el primero fue construido solamente con variables biológicas, el segundo se construyó únicamente con variables de hábitat y el tercero con la combinación de estos dos grupos de variables. Los resultados muestran que las variables de hábitat son los ¿drivers¿ más importantes para la distribución de NFSR, y demuestran la importancia ecológica de los modelos desarrollados. Los resultados de este estudio destacan la necesidad de proponer medidas de mitigación relacionadas con la mejora del hábitat (incluyendo la variabilidad de caudales en el río) como medida para conservar y restaurar los ríos Mediterráneos. El tercer artículo busca comparar la fiabilidad y relevancia ecológica de dos modelos predictivos de NFSR, basados en redes neuronales artificiales (ANN) y random forests (RF). La relevancia de las variables seleccionadas por cada modelo se evaluó a partir del conocimiento ecológico y apoyado por otras investigaciones. Los dos modelos fueron desarrollados utilizando validación cruzada k-fold y su desempeño fue evaluado a través de tres índices: el coeficiente de determinación (R2 ), el error cuadrático medio (MSE) y el coeficiente de determinación ajustado (R2 adj). Según los resultados, RF obtuvo el mejor desempeño en entrenamiento. Pero, el procedimiento de validación cruzada reveló que ambas técnicas generaron resultados similares (R2 = 68% para RF y R2 = 66% para ANN). La comparación de diferentes métodos de machine learning es muy útil para el análisis crítico de los resultados obtenidos a través de los modelos. El cuarto artículo tiene como objetivo evaluar la capacidad de las ANN para identificar los factores que afectan a la densidad y la presencia/ausencia de Luciobarbus guiraonis en la demarcación hidrográfica del Júcar. Se utilizó una red neuronal artificial multicapa de tipo feedforward (ANN) para representar relaciones no lineales entre descriptores de L. guiraonis con variables biológicas y de hábitat. El poder predictivo de los modelos se evaluó con base en el índice Kappa (k), la proporción de casos correctamente clasificados (CCI) y el área bajo la curva (AUC) característica operativa del receptor (ROC). La presencia/ausencia de L. guiraonis fue bien predicha por el modelo ANN (CCI = 87%, AUC = 0.85 y k = 0.66). La predicción de la densidad fue moderada (CCI = 62%, AUC = 0.71 y k = 0.43). Las variables más importantes que describen la presencia/ausencia fueron: radiación solar, área de drenaje y la proporción de especies exóticas de peces con un peso relativo del 27.8%, 24.53% y 13.60% respectivamente. En el modelo de densidad, las variables más importantes fueron el coeficiente de variación de los caudales medios anuales con una importancia relativa del 50.5% y la proporción de especies exóticas de peces con el 24.4%. Los modelos proporcionan información importante acerca de la relación de L. guiraonis con variables bióticas y de hábitat, este nuevo conocimiento podría utilizarse para apoyar futuros estudios y para contribuir en la toma de decisiones para la conservación y manejo de especies en los en los ríos Júcar, Cabriel y Turia.Olaya Marín, EJ. (2013). Ecological models at fish community and species level to support effective river restoration [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/28853TESI

    Detecting and Monitoring Hate Speech in Twitter

    Get PDF
    Social Media are sensors in the real world that can be used to measure the pulse of societies. However, the massive and unfiltered feed of messages posted in social media is a phenomenon that nowadays raises social alarms, especially when these messages contain hate speech targeted to a specific individual or group. In this context, governments and non-governmental organizations (NGOs) are concerned about the possible negative impact that these messages can have on individuals or on the society. In this paper, we present HaterNet, an intelligent system currently being used by the Spanish National Office Against Hate Crimes of the Spanish State Secretariat for Security that identifies and monitors the evolution of hate speech in Twitter. The contributions of this research are many-fold: (1) It introduces the first intelligent system that monitors and visualizes, using social network analysis techniques, hate speech in Social Media. (2) It introduces a novel public dataset on hate speech in Spanish consisting of 6000 expert-labeled tweets. (3) It compares several classification approaches based on different document representation strategies and text classification models. (4) The best approach consists of a combination of a LTSM+MLP neural network that takes as input the tweet’s word, emoji, and expression tokens’ embeddings enriched by the tf-idf, and obtains an area under the curve (AUC) of 0.828 on our dataset, outperforming previous methods presented in the literatureThe work by Quijano-Sanchez was supported by the Spanish Ministry of Science and Innovation grant FJCI-2016-28855. The research of Liberatore was supported by the Government of Spain, grant MTM2015-65803-R, and by the European Union’s Horizon 2020 Research and Innovation Programme, under the Marie Sklodowska-Curie grant agreement No. 691161 (GEOSAFE). All the financial support is gratefully acknowledge

    Landing on the right job : a machine learning approach to match candidates with jobs applying semantic embeddings

    Get PDF
    Project Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsJob application’ screening is a challenging and time-consuming task to execute manually. For recruiting companies such as Landing.Jobs it poses constraints on the ability to scale the business. Some systems have been built for assisting recruiters screening applications but they tend to overlook the challenges related with natural language. On the other side, most people nowadays specially in the IT-sector use the Internet to look for jobs, however, given the huge amount of job postings online, it can be complicated for a candidate to short-list the right ones for applying to. In this work we test a collection of Machine Learning algorithms and through the usage of cross-validation we calibrate the most important hyper-parameters of each algorithm. The learning algorithms attempt to learn what makes a successful match between candidate profile and job requirements using for training historical data of selected/reject applications in the screening phase. The features we use for building our models include the similarities between the job requirements and the candidate profile in dimensions such as skills, profession, location and a set of job features which intend to capture the experience level, salary expectations, among others. In a first set of experiments, our best results emerge from the application of the Multilayer Perceptron algorithm (also known as Feed-Forward Neural Networks). After this, we improve the skills-matching feature by applying techniques for semantically embedding required/offered skills in order to tackle problems such as synonyms and typos which artificially degrade the similarity between job profile and candidate profile and degrade the overall quality of the results. Through the usage of word2vec algorithm for embedding skills and Multilayer Perceptron to learn the overall matching we obtain our best results. We believe our results could be even further improved by extending the idea of semantic embedding to other features and by finding candidates with similar job preferences with the target candidate and building upon that a richer presentation of the candidate profile. We consider that the final model we present in this work can be deployed in production as a first-level tool for doing the heavy-lifting of screening all applications, then passing the top N matches for manual inspection. Also, the results of our model can be used to complement any recommendation system in place by simply running the model encoding the profile of all candidates in the database upon any new job opening and recommend the jobs to the candidates which yield higher matching probability
    corecore