3,033 research outputs found
A Cross-domain and Cross-language Knowledge-based Representation of Text and its Meaning
Tesis por compendioNatural Language Processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human languages. One of its most challenging aspects involves enabling computers to derive meaning from human natural language. To do so, several meaning or context representations have been proposed with competitive performance. However, these representations still have room for improvement when working in a cross-domain or cross-language scenario.
In this thesis we study the use of knowledge graphs as a cross-domain and cross-language representation of text and its meaning. A knowledge graph is a graph that expands and relates the original concepts belonging to a set of words. We obtain its characteristics using a wide-coverage multilingual semantic network as knowledge base. This allows to have a language coverage of hundreds of languages and millions human-general and -specific concepts.
As starting point of our research we employ knowledge graph-based features - along with other traditional ones and meta-learning - for the NLP task of single- and cross-domain polarity classification. The analysis and conclusions of that work provide evidence that knowledge graphs capture meaning in a domain-independent way.
The next part of our research takes advantage of the multilingual semantic network and focuses on cross-language Information Retrieval (IR) tasks. First, we propose a fully knowledge graph-based model of similarity analysis for cross-language plagiarism detection. Next, we improve that model to cover out-of-vocabulary words and verbal tenses and apply it to cross-language document retrieval, categorisation, and plagiarism detection. Finally, we study the use of knowledge graphs for the NLP tasks of community questions answering, native language identification, and language variety identification.
The contributions of this thesis manifest the potential of knowledge graphs as a cross-domain and cross-language representation of text and its meaning for NLP and IR tasks. These contributions have been published in several international conferences and journals.El Procesamiento del Lenguaje Natural (PLN) es un campo de la informática, la inteligencia artificial y la lingüística computacional centrado en las interacciones entre las máquinas y el lenguaje de los humanos. Uno de sus mayores desafíos implica capacitar a las máquinas para inferir el significado del lenguaje natural humano. Con este propósito, diversas representaciones del significado y el contexto han sido propuestas obteniendo un rendimiento competitivo. Sin embargo, estas representaciones todavía tienen un margen de mejora en escenarios transdominios y translingües.
En esta tesis estudiamos el uso de grafos de conocimiento como una representación transdominio y translingüe del texto y su significado. Un grafo de conocimiento es un grafo que expande y relaciona los conceptos originales pertenecientes a un conjunto de palabras. Sus propiedades se consiguen gracias al uso como base de conocimiento de una red semántica multilingüe de amplia cobertura. Esto permite tener una cobertura de cientos de lenguajes y millones de conceptos generales y específicos del ser humano.
Como punto de partida de nuestra investigación empleamos características basadas en grafos de conocimiento - junto con otras tradicionales y meta-aprendizaje - para la tarea de PLN de clasificación de la polaridad mono- y transdominio. El análisis y conclusiones de ese trabajo muestra evidencias de que los grafos de conocimiento capturan el significado de una forma independiente del dominio. La siguiente parte de nuestra investigación aprovecha la capacidad de la red semántica multilingüe y se centra en tareas de Recuperación de Información (RI). Primero proponemos un modelo de análisis de similitud completamente basado en grafos de conocimiento para detección de plagio translingüe. A continuación, mejoramos ese modelo para cubrir palabras fuera de vocabulario y tiempos verbales, y lo aplicamos a las tareas translingües de recuperación de documentos, clasificación, y detección de plagio. Por último, estudiamos el uso de grafos de conocimiento para las tareas de PLN de respuesta de preguntas en comunidades, identificación del lenguaje nativo, y identificación de la variedad del lenguaje.
Las contribuciones de esta tesis ponen de manifiesto el potencial de los grafos de conocimiento como representación transdominio y translingüe del texto y su significado en tareas de PLN y RI. Estas contribuciones han sido publicadas en diversas revistas y conferencias internacionales.El Processament del Llenguatge Natural (PLN) és un camp de la informàtica, la intel·ligència artificial i la lingüística computacional centrat en les interaccions entre les màquines i el llenguatge dels humans. Un dels seus majors reptes implica capacitar les màquines per inferir el significat del llenguatge natural humà. Amb aquest propòsit, diverses representacions del significat i el context han estat proposades obtenint un rendiment competitiu. No obstant això, aquestes representacions encara tenen un marge de millora en escenaris trans-dominis i trans-llenguatges.
En aquesta tesi estudiem l'ús de grafs de coneixement com una representació trans-domini i trans-llenguatge del text i el seu significat. Un graf de coneixement és un graf que expandeix i relaciona els conceptes originals pertanyents a un conjunt de paraules. Les seves propietats s'aconsegueixen gràcies a l'ús com a base de coneixement d'una xarxa semàntica multilingüe d'àmplia cobertura. Això permet tenir una cobertura de centenars de llenguatges i milions de conceptes generals i específics de l'ésser humà.
Com a punt de partida de la nostra investigació emprem característiques basades en grafs de coneixement - juntament amb altres tradicionals i meta-aprenentatge - per a la tasca de PLN de classificació de la polaritat mono- i trans-domini. L'anàlisi i conclusions d'aquest treball mostra evidències que els grafs de coneixement capturen el significat d'una forma independent del domini. La següent part de la nostra investigació aprofita la capacitat\hyphenation{ca-pa-ci-tat} de la xarxa semàntica multilingüe i se centra en tasques de recuperació d'informació (RI). Primer proposem un model d'anàlisi de similitud completament basat en grafs de coneixement per a detecció de plagi trans-llenguatge. A continuació, vam millorar aquest model per cobrir paraules fora de vocabulari i temps verbals, i ho apliquem a les tasques trans-llenguatges de recuperació de documents, classificació, i detecció de plagi. Finalment, estudiem l'ús de grafs de coneixement per a les tasques de PLN de resposta de preguntes en comunitats, identificació del llenguatge natiu, i identificació de la varietat del llenguatge.
Les contribucions d'aquesta tesi posen de manifest el potencial dels grafs de coneixement com a representació trans-domini i trans-llenguatge del text i el seu significat en tasques de PLN i RI. Aquestes contribucions han estat publicades en diverses revistes i conferències internacionals.Franco Salvador, M. (2017). A Cross-domain and Cross-language Knowledge-based Representation of Text and its Meaning [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/84285TESISCompendi
Estilo comunicativo súbito en Twitter: efectos sobre la credibilidad y la participación cívica
El presente trabajo tuvo como propósito examinar el efecto de dos estilos lingüísticos en mensajes de Twitter sobre su capacidad
de atraer e involucrar a usuarios en actividades de participación cívica, entendida esta como la participación de ciudadanos en
acciones de mejora comunitaria. A partir de una aproximación sociolingüística, se realizó un estudio experimental en el que 324
estudiantes universitarios evaluaron los mensajes publicados por el líder de una ONG medioambiental en su página de Twitter.
Se manipuló el género del líder de la ONG (hombre o mujer) y el estilo lingüístico empleado en la redacción de los mensajes en
términos de un estilo «súbito» (ejemplo: asertivo, directo) o un estilo «dócil» (ejemplo: indirecto, ambiguo). El género de los evaluadores
también fue manipulado con el fin de analizar diferencias potenciales en las impresiones y evaluaciones de hombres y
mujeres. Los resultados mostraron que cuando los líderes «hombre» y «mujer» emplearon un estilo lingüístico súbito en sus mensajes
fueron percibidos como más creíbles sin importar el género de los evaluadores. Además, el análisis de efectos indirectos
registró que la credibilidad percibida hacia el líder medió la relación entre el estilo súbito y la probabilidad de que los seguidores
se involucren en las iniciativas de la ONG. Los resultados son discutidos en términos de la relevancia de este tipo de comunicación
para la participación cívica en las redes socialesThe aim of the present study was to examine the effect of two linguistic styles used in Twitter messages on engaging users in
civic participation activities, understood as participation by citizens in community improvement actions. Using a socio-linguistic
approach, an experimental intervention was carried out in which 324 university students evaluated the messages posted by the
head of an environmental NGO on Twitter. The gender of the NGO head (male vs. female) and the linguistic style used for the
posts were manipulated in terms of a «powerful» (e.g., assertive, direct) or «powerless» style (e.g., indirect, ambiguous). The gender
of the evaluators was also manipulated in order to analyze potential differences among the overall impressions and evaluations
between men and women. The results showed that «male» and «female» versions of the NGO head were perceived as more
credible when they used a powerful as opposed to a powerless linguistic style. This effect was observed irrespective of the evaluator’s
gender. Moreover, the test for indirect effects suggested that credibility mediated the relationship between a powerful
style and the likelihood of engaging users to participate in the NGO’s agenda. The results are discussed in terms of the relevance
of this type of communication for promoting civic participation in social medi
A Systematic Study of Knowledge Graph Analysis for Cross-language Plagiarism Detection
This is the author’s version of a work that was accepted for publication in Information Processing and Management. Changes resulting from the publishing process, such as peer review, editing, corrections, structural formatting, and other quality control mechanisms may not be reflected in this document. Changes may have been made to this work since it was submitted for publication. A definitive version was subsequently published in Information Processing and Management 52 (2016) 550–570. DOI 10.1016/j.ipm.2015.12.004Cross-language plagiarism detection aims to detect plagiarised fragments of text among
documents in different languages. In this paper, we perform a systematic examination of
Cross-language Knowledge Graph Analysis; an approach that represents text fragments using
knowledge graphs as a language independent content model. We analyse the contributions
to cross-language plagiarism detection of the different aspects covered by knowledge
graphs: word sense disambiguation, vocabulary expansion, and representation by similarities
with a collection of concepts. In addition, we study both the relevance of concepts and
their relations when detecting plagiarism. Finally, as a key component of the knowledge
graph construction, we present a new weighting scheme of relations between concepts
based on distributed representations of concepts. Experimental results in Spanish–English
and German–English plagiarism detection show state-of-the-art performance and provide
interesting insights on the use of knowledge graphs.
© 2015 Elsevier Ltd. All rights reserved.This research has been carried out in the framework of the European Commission WIQ-EI IRSES (No. 269180) and DIANA APPLICATIONS - Finding Hidden Knowledge in Texts: Applications (TIN2012-38603-C02-01) projects. We would like to thank Tomas Mikolov, Martin Potthast, and Luis A. Leiva for their support and comments during this research.Franco-Salvador, M.; Rosso, P.; Montes Gomez, M. (2016). A Systematic Study of Knowledge Graph Analysis for Cross-language Plagiarism Detection. Information Processing and Management. 52(4):550-570. https://doi.org/10.1016/j.ipm.2015.12.004S55057052
Cross-language plagiarism detection using multilingual semantic network
The final publication is available at Springer via http://10.1007/978-3-642-36973-5_66Cross-language plagiarism refers to the type of plagiarism where the source and suspicious documents are in different languages. Plagiarism detection across languages is still in its infancy state. In this article, we propose a new graph-based approach that uses a multilingual semantic network to compare document paragraphs in different languages. In order to investigate the proposed approach, we used the German-English and Spanish-English cross-language plagiarism cases of the PAN-PC¿11 corpus. We compare the obtained results with two state-of-the-art models. Experimental results indicate that our graph-based approach is a good alternative for cross-language plagiarism detectionWe thank the Conselleria d′educació, Formació i Ocupació of the Generalitat Valenciana for funding the work of the first author with the Gerónimo Forteza program. The research has been carried out in the framework of the European Commission WIQ-EI IRSES project (no. 269180) and the VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems.Franco Salvador, M.; Gupta, PA.; Rosso ., P. (2013). Cross-language plagiarism detection using multilingual semantic network. En Advances in Information Retrieval. Springer Verlag (Germany). 7814:710-713. https://doi.org/10.1007/978-3-642-36973-5_66S7107137814Barrón-Cedeño, A.: On the mono- and cross-language detection of text re-use and plagiarism. Ph.D. thesis, Universitat Politènica de València (2012)Barrón-Cedeño, A., Rosso, P., Pinto, D., Juan, A.: On cross-lingual plagiarism analysis using a statistical model. In: Proceedings of the ECAI 2008 Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse, PAN 2008 (2008)Havasi, C.: Conceptnet 3: A flexible, multilingual semantic network for common sense knowledge. In: The 22nd Conference on Artificial Intelligence (2007)Mcnamee, P., Mayfield, J.: Character n-gram tokenization for European language text retrieval. Inf. Retr. 7(1-2), 73–97 (2004)Montes-y-Gómez, M., Gelbukh, A., López-López, A., Baeza-Yates, R.: Flexible Comparison of Conceptual GraphsWork done under partial support of CONACyT, CGEPI-IPN, and SNI, Mexico. In: Mayr, H.C., Lazanský, J., Quirchmayr, G., Vogel, P. (eds.) DEXA 2001. LNCS, vol. 2113, pp. 102–111. Springer, Heidelberg (2001)Navigli, R., Ponzetto, S.P.: Babelnet: building a very large multilingual semantic network. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, ACL 2010, Stroudsburg, PA, USA, pp. 216–225 (2010)Potthast, M., Barrón-Cedeño, A., Stein, B., Rosso, P.: Cross-language plagiarism detection. Language Resources and Evaluation, Special Issue on Plagiarism and Authorship Analysis 45(1) (2011)Potthast, M., Eiselt, A., Barrón-Cedeño, A., Stein, B., Rosso, P.: Overview of the 3rd international competition on plagiarism detection. In: CLEF (Notebook Papers/Labs/Workshop) (2011
Millora local de l’enllaç entre les carreteres C-12 i LV-7004 a Torrebesses, Segrià
Actualment, les connexions entre la població de Torrebesses i la carretera C-12 es realitzen
a través de la carretera LV-7004 i de la xarxa de camins. L'enllaç entre les mencionades C-
12 (PK 116+520) i la LV-7004 (PK 10+560), està format per una rotonda partida. Aquest
tipus de rotonda i el fet que la carretera C-12 suporti un gran volum de tràfic en aquest tram,
ofereixen poca seguretat. L'objectiu d'aquest projecte és plantejar una nova alternativa,
realitzant aquest enllaç a diferent nivell, evitant els girs a l'esquerra, per aconseguir una
seguretat vial major a l'hora d'accedir i sortir de la població a través d'aquest enllaç. Per altra
banda, l'obra de drenatge actual no és capaç de desguassar el cabal que rep, produint-se un
desbordament per sobre de la carretera C-12 a la zona del marge dret del torrent. Això
obliga a elevar la rasant actual de la carretera C-12 i a ampliar l'obra de drenatge existent
Análisis del comportamiento a fatiga de las mezclas bituminosas a partir del nuevo procedimiento de ensayo EBADE
La fisuración por fatiga de las capas de mezcla asfáltica es uno de los mecanismos de
deterioro más frecuente en los pavimentos flexibles. En ingeniería, la fisuración, y en
especial, el fenómeno de fatiga, están asociados al deterioro que se produce en un
material a consecuencia de la aplicación de cargas repetidas con una magnitud muy
inferior a la resistencia máxima que puede soportar el material.
En el caso de los pavimentos asfálticos, la repetición de las cargas producidas por el
tráfico, junto con las tensiones térmicas debido a las variaciones de temperatura, van
dando lugar a la progresiva fisuración y rotura de las capas de mezcla asfáltica de la
estructura de pavimento. Estos factores, por tanto, equivalen a la pérdida estructural y
funcional de las carreteras debido a la degeneración de sus propiedades mecánicas.
Estas consecuencias, conducen a la necesidad de llevar a cabo distintas operaciones de
reparación del firme con el fin de devolverle sus características funcionales y estructurales iniciales.
En este contexto, los ensayos de flexión a tensión o desplazamiento constante son
comúnmente recomendados por las normas para determinar el comportamiento a fatiga.
Entre estos métodos estándar de laboratorio, se encuentran los ensayos de flexión en
dos, tres y cuatro puntos, que simulan dicho comportamiento pero que requieren largos
tiempos de ejecución. Además, estos métodos pueden dar resultados erróneos para mezclas muy flexibles, con ligantes asfálticos modificados o altos porcentajes de betún.
Por otro lado, las tensiones residuales térmicas en pavimentos pueden contribuir al
proceso de fatiga. Varios de los modelos de simulación se han desarrollado para evaluar
estos efectos térmicos; pero, sin embargo, la combinación de fatiga por tráfico relacionada
con una disminución de la temperatura ambiente no ha sido suficientemente investigada.
Por esta razón, el Laboratorio de Caminos de la UPC ha creado un nuevo procedimiento
de ensayo de fatiga, llamado EBADE (Ensayo de BArrido de DEformaciones), para evaluar este comportamiento en las mezclas bituminosas sometidas o no a tensiones térmicas. Este nuevo ensayo consiste en aplicar una carga cíclica de tensión-compresión bajo diferentes niveles de deformación, para determinar dos niveles de deformación críticos de la mezcla: el nivel límite donde no se registra daño en la mezcla (elástico), y el nivel de deformación en que la mezcla falla, registrando un daño irreversible (irreversible).
En la presente tesina, por un lado, se da a conocer tanto el fenómeno de la fatiga y la
evolución de su estudio y determinación hasta la actualidad, como la metodología del
nuevo procedimiento EBADE; y por otro lado, se presentan los resultados y principales
conclusiones del estudio experimental llevado a cabo para demostrar la sensibilidad y
ventajas del nuevo procedimiento propuesto
Una representación translingüe y transdominio del texto y su significado basada en el conocimiento
Ph.D. thesis (international doctorate mention) in Computer Science written by Marc Franco Salvador under the supervision of Dr. Paolo Rosso at the Universitat Politècnica de València. The author was examined in Valencia in May 2017 by a jury composed of the following doctors: Nicola Ferro (University of Padua), Bernardo Magnini (Fondazone Bruno Kessler), and Simone Paolo Ponzetto (University of Mannheim). The international doctorate mention was granted thanks to the completion of the following research internships: 1 year at the Sapienza University of Rome (Italy) under the supervision of Dr. Roberto Navigli, 2 months at the IIIT of Hyderabad and at Veooz (India) under the supervision of Dr. Vasudeva Varma and Dr. Prasad Pingali, 1 month at the INAOE (Mexico) under the supervision of Dr. Manuel Montes-y-Gómez, and 3 months at Symanto Group (Germany) under the supervision of Dr. Yassine Benajiba. The obtained grade was Excellent with Cum Laude distinction.Tesis doctoral (con mención de doctorado internacional) en Informática realizada por Marc Franco Salvador bajo la supervisión del Dr. Paolo Rosso en la Universitat Politècnica de València. La lectura de la tesis fue realizada en Valencia en Mayo del 2017 por un jurado compuesto por los siguientes doctores: Nicola Ferro (University of Padua), Bernardo Magnini (Fondazone Bruno Kessler) y Simone Paolo Ponzetto (University of Mannheim). La mención de doctorado internacional fue otorgada gracias a la realización de las siguientes estancias de investigación: 1 año en la Sapienza University of Rome (Italia) bajo la supervisión del Dr. Roberto Navigli, 2 meses en el IIIT de Hyderabad y en Veooz (India) bajo la supervisión del Dr. Vasudeva Varma y el Dr. Prasad Pingali, 1 mes en el INAOE (México) bajo la supervisión del Dr. Manuel Montes-y-Gómez y 3 meses en Symanto Group (Alemania) bajo la supervisión del Dr. Yassine Benajiba. La calificación obtenida fue Sobresaliente con mención Cum Laude.This research has been carried out in the framework of the European Commission project WIQ-EI IR-SES (no. 269180), and the national projects DIANA-APPLICATIONS - Finding Hidden Knowledge in Texts: Applications (TIN2012-38603-C02-01), Destilado de opiniones desde contenidos generados por usuarios (TIN2011-14726-E), and SomEMBED: SOcial Media language understanding - EMBEDing contexts (TIN2015-71147-C2-1-P)
- …