6,718 research outputs found
Improving the matching of registered unemployed to job offers through machine learning algorithms
Dissertation presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business IntelligenceDue to the existence of a double-sided asymmetric information problem on the labour market
characterized by a mutual lack of trust by employers and unemployed people, not enough job matches
are facilitated by public employment services (PES), which seem to be caught in a low-end equilibrium.
In order to act as a reliable third party, PES need to build a good and solid reputation among their main
clients by offering better and less time consuming pre-selection services. The use of machine-learning,
data-driven relevancy algorithms that calculate the viability of a specific candidate for a particular job
opening is becoming increasingly popular in this field. Based on the Portuguese PES databases (CVs,
vacancies, pre-selection and matching results), complemented by relevant external data published by
Statistics Portugal and the European Classification of Skills/Competences, Qualifications and
Occupations (ESCO), the current thesis evaluates the potential application of models such as Random
Forests, Gradient Boosting, Support Vector Machines, Neural Networks Ensembles and other tree-based
ensembles to the job matching activities that are carried out by the Portuguese PES, in order to
understand the extent to which the latter can be improved through the adoption of automated
processes. The obtained results seem promising and point to the possible use of robust algorithms such
as Random Forests within the pre-selection of suitable candidates, due to their advantages at various
levels, namely in terms of accuracy, capacity to handle large datasets with thousands of variables,
including badly unbalanced ones, as well as extensive missing values and many-valued categorical
variables
Deep learning in remote sensing: a review
Standing at the paradigm shift towards data-intensive science, machine
learning techniques are becoming increasingly important. In particular, as a
major breakthrough in the field, deep learning has proven as an extremely
powerful tool in many fields. Shall we embrace deep learning as the key to all?
Or, should we resist a 'black-box' solution? There are controversial opinions
in the remote sensing community. In this article, we analyze the challenges of
using deep learning for remote sensing data analysis, review the recent
advances, and provide resources to make deep learning in remote sensing
ridiculously simple to start with. More importantly, we advocate remote sensing
scientists to bring their expertise into deep learning, and use it as an
implicit general model to tackle unprecedented large-scale influential
challenges, such as climate change and urbanization.Comment: Accepted for publication IEEE Geoscience and Remote Sensing Magazin
Ecological models at fish community and species level to support effective river restoration
RESUMEN
Los peces nativos son indicadores de la salud de los ecosistemas acuáticos, y se han
convertido en un elemento de calidad clave para evaluar el estado ecológico de los ríos. La
comprensión de los factores que afectan a las especies nativas de peces es importante para la
gestión y conservación de los ecosistemas acuáticos. El objetivo general de esta tesis es analizar
las relaciones entre variables biológicas y de hábitat (incluyendo la conectividad) a través de
una variedad de escalas espaciales en los ríos Mediterráneos, con el desarrollo de herramientas
de modelación para apoyar la toma de decisiones en la restauración de ríos.
Esta tesis se compone de cuatro artículos. El primero tiene como objetivos modelar la
relación entre un conjunto de variables ambientales y la riqueza de especies nativas (NFSR), y
evaluar la eficacia de potenciales acciones de restauración para mejorar la NFSR en la cuenca
del río Júcar. Para ello se aplicó un enfoque de modelación de red neuronal artificial (ANN),
utilizando en la fase de entrenamiento el algoritmo Levenberg-Marquardt. Se aplicó el método
de las derivadas parciales para determinar la importancia relativa de las variables ambientales.
Según los resultados, el modelo de ANN combina variables que describen la calidad de ribera,
la calidad del agua y el hábitat físico, y ayudó a identificar los principales factores que
condicionan el patrón de distribución de la NFSR en los ríos Mediterráneos. En la segunda parte
del estudio, el modelo fue utilizado para evaluar la eficacia de dos acciones de restauración en el
río Júcar: la eliminación de dos azudes abandonados, con el consiguiente incremento de la
proporción de corrientes. Estas simulaciones indican que la riqueza aumenta con el incremento
de la longitud libre de barreras artificiales y la proporción del mesohabitat de corriente, y
demostró la utilidad de las ANN como una poderosa herramienta para apoyar la toma de
decisiones en el manejo y restauración ecológica de los ríos Mediterráneos.
El segundo artículo tiene como objetivo determinar la importancia relativa de los dos
principales factores que controlan la reducción de la riqueza de peces (NFSR), es decir, las
interacciones entre las especies acuáticas, variables del hábitat (incluyendo la conectividad
fluvial) y biológicas (incluidas las especies invasoras) en los ríos Júcar, Cabriel y Turia. Con
este fin, tres modelos de ANN fueron analizados: el primero fue construido solamente con
variables biológicas, el segundo se construyó únicamente con variables de hábitat y el tercero
con la combinación de estos dos grupos de variables. Los resultados muestran que las variables
de hábitat son los ¿drivers¿ más importantes para la distribución de NFSR, y demuestran la
importancia ecológica de los modelos desarrollados. Los resultados de este estudio destacan la
necesidad de proponer medidas de mitigación relacionadas con la mejora del hábitat
(incluyendo la variabilidad de caudales en el río) como medida para conservar y restaurar los
ríos Mediterráneos.
El tercer artículo busca comparar la fiabilidad y relevancia ecológica de dos modelos
predictivos de NFSR, basados en redes neuronales artificiales (ANN) y random forests (RF). La
relevancia de las variables seleccionadas por cada modelo se evaluó a partir del conocimiento
ecológico y apoyado por otras investigaciones. Los dos modelos fueron desarrollados utilizando
validación cruzada k-fold y su desempeño fue evaluado a través de tres índices: el coeficiente de determinación (R2
), el error cuadrático medio (MSE) y el coeficiente de determinación ajustado
(R2
adj). Según los resultados, RF obtuvo el mejor desempeño en entrenamiento. Pero, el
procedimiento de validación cruzada reveló que ambas técnicas generaron resultados similares
(R2
= 68% para RF y R2
= 66% para ANN). La comparación de diferentes métodos de machine
learning es muy útil para el análisis crítico de los resultados obtenidos a través de los modelos.
El cuarto artículo tiene como objetivo evaluar la capacidad de las ANN para identificar los
factores que afectan a la densidad y la presencia/ausencia de Luciobarbus guiraonis en la
demarcación hidrográfica del Júcar. Se utilizó una red neuronal artificial multicapa de tipo feedforward (ANN) para representar relaciones no lineales entre descriptores de L. guiraonis con
variables biológicas y de hábitat. El poder predictivo de los modelos se evaluó con base en el
índice Kappa (k), la proporción de casos correctamente clasificados (CCI) y el área bajo la curva
(AUC) característica operativa del receptor (ROC). La presencia/ausencia de L. guiraonis fue
bien predicha por el modelo ANN (CCI = 87%, AUC = 0.85 y k = 0.66). La predicción de la
densidad fue moderada (CCI = 62%, AUC = 0.71 y k = 0.43). Las variables más importantes
que describen la presencia/ausencia fueron: radiación solar, área de drenaje y la proporción de
especies exóticas de peces con un peso relativo del 27.8%, 24.53% y 13.60% respectivamente.
En el modelo de densidad, las variables más importantes fueron el coeficiente de variación de
los caudales medios anuales con una importancia relativa del 50.5% y la proporción de especies
exóticas de peces con el 24.4%. Los modelos proporcionan información importante acerca de la
relación de L. guiraonis con variables bióticas y de hábitat, este nuevo conocimiento podría
utilizarse para apoyar futuros estudios y para contribuir en la toma de decisiones para la
conservación y manejo de especies en los en los ríos Júcar, Cabriel y Turia.Olaya Marín, EJ. (2013). Ecological models at fish community and species level to support effective river restoration [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/28853TESI
Detecting and Monitoring Hate Speech in Twitter
Social Media are sensors in the real world that can be used to measure the pulse of societies.
However, the massive and unfiltered feed of messages posted in social media is a phenomenon that
nowadays raises social alarms, especially when these messages contain hate speech targeted to a
specific individual or group. In this context, governments and non-governmental organizations
(NGOs) are concerned about the possible negative impact that these messages can have on individuals
or on the society. In this paper, we present HaterNet, an intelligent system currently being used by
the Spanish National Office Against Hate Crimes of the Spanish State Secretariat for Security that
identifies and monitors the evolution of hate speech in Twitter. The contributions of this research
are many-fold: (1) It introduces the first intelligent system that monitors and visualizes, using social
network analysis techniques, hate speech in Social Media. (2) It introduces a novel public dataset on
hate speech in Spanish consisting of 6000 expert-labeled tweets. (3) It compares several classification
approaches based on different document representation strategies and text classification models. (4)
The best approach consists of a combination of a LTSM+MLP neural network that takes as input the
tweet’s word, emoji, and expression tokens’ embeddings enriched by the tf-idf, and obtains an area
under the curve (AUC) of 0.828 on our dataset, outperforming previous methods presented in the
literatureThe work by Quijano-Sanchez was supported by the Spanish Ministry of Science and Innovation
grant FJCI-2016-28855. The research of Liberatore was supported by the Government of Spain, grant MTM2015-65803-R, and by the European Union’s Horizon 2020 Research and Innovation Programme, under the Marie Sklodowska-Curie grant agreement No. 691161 (GEOSAFE). All the financial support is gratefully acknowledge
Landing on the right job : a machine learning approach to match candidates with jobs applying semantic embeddings
Project Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsJob application’ screening is a challenging and time-consuming task to execute manually. For recruiting companies such as Landing.Jobs it poses constraints on the ability to scale the business. Some systems have been built for assisting recruiters screening applications but they tend to overlook the challenges related with natural language. On the other side, most people nowadays specially in the IT-sector use the Internet to look for jobs, however, given the huge amount of job postings online, it can be complicated for a candidate to short-list the right ones for applying to. In this work we test a collection of Machine Learning algorithms and through the usage of cross-validation we calibrate the most important hyper-parameters of each algorithm. The learning algorithms attempt to learn what makes a successful match between candidate profile and job requirements using for training historical data of selected/reject applications in the screening phase. The features we use for building our models include the similarities between the job requirements and the candidate profile in dimensions such as skills, profession, location and a set of job features which intend to capture the experience level, salary expectations, among others. In a first set of experiments, our best results emerge from the application of the Multilayer Perceptron algorithm (also known as Feed-Forward Neural Networks). After this, we improve the skills-matching feature by applying techniques for semantically embedding required/offered skills in order to tackle problems such as synonyms and typos which artificially degrade the similarity between job profile and candidate profile and degrade the overall quality of the results. Through the usage of word2vec algorithm for embedding skills and Multilayer Perceptron to learn the overall matching we obtain our best results. We believe our results could be even further improved by extending the idea of semantic embedding to other features and by finding candidates with similar job preferences with the target candidate and building upon that a richer presentation of the candidate profile. We consider that the final model we present in this work can be deployed in production as a first-level tool for doing the heavy-lifting of screening all applications, then passing the top N matches for manual inspection. Also, the results of our model can be used to complement any recommendation system in place by simply running the model encoding the profile of all candidates in the database upon any new job opening and recommend the jobs to the candidates which yield higher matching probability
- …