89 research outputs found
Text categorization using bibliographic records : beyond document content
En este artículo se estudia el uso de diferentes fuentes de información
para tareas de clasificación de textos. Dado el creciente número de bibliotecas digitales,
se impone una revisión de la información disponible en dichas bases de datos.
Se han llevado a cabo una serie de experimentos de clasificación multi-etiquetado
dentro del dominio de la Física de Altas Energías haciendo uso de diferentes clasificadores base y combinando distintas fuentes de información. Los resultados muestran
que el uso de metadatos es tan válido como el uso de versiones a texto completo
de los documentos.This paper studies the use of different sources of information for performing
a text classification task. The growing number of digital libraries imposes
a review of the available data from those databases. Some experiments applying
different base classifiers for a multi-label classifier in the domain of High Energy
Physics on several of these possible sources have been carried out. Results show
that the use of metadata is almost as good as the full-text version of papers.This work is partially financed by the Spanish
Minister of Science and Technology, by means
of project TIC2003- 07158-C04-04
WWW como fuente de recursos lingüíticos para su uso en PLN
Crear un corpus extraído a partir
de la Web está lejos de ser una tarea trivial. El
elevado grado de heterogeneidad que es usual
encontrar en el formato HTML, la gran
cantidad de información irrelevante tanto en el
sitio Web como dentro de una misma página y
otros problemas de diversa índole, dificultan
la obtención de un conjunto de documentos de
aspecto homogéneo, estructurado y libre de
ruido. Es presentada aquí una herramienta que
pretende no sólo recuperar y almacenar
selectivamente determinados sitios Web, sino
dotar a los documentos obtenidos de un
formato conveniente y homogéneo para su
procesamiento automático, con independencia
del origen de cada documento
Application of Text Summarization techniques to the Geographical Information Retrieval task
Automatic Text Summarization has been shown to be useful for Natural Language Processing tasks such as Question Answering or Text Classification and other related fields of computer science such as Information Retrieval. Since Geographical Information Retrieval can be considered as an extension of the Information Retrieval field, the generation of summaries could be integrated into these systems by acting as an intermediate stage, with the purpose of reducing the document length. In this manner, the access time for information searching will be improved, while at the same time relevant documents will be also retrieved. Therefore, in this paper we propose the generation of two types of summaries (generic and geographical) applying several compression rates in order to evaluate their effectiveness in the Geographical Information Retrieval task. The evaluation has been carried out using GeoCLEF as evaluation framework and following an Information Retrieval perspective without considering the geo-reranking phase commonly used in these systems. Although single-document summarization has not performed well in general, the slight improvements obtained for some types of the proposed summaries, particularly for those based on geographical information, made us believe that the integration of Text Summarization with Geographical Information Retrieval may be beneficial, and consequently, the experimental set-up developed in this research work serves as a basis for further investigations in this field.This work has been partially funded by the European Commission under the Seventh (FP7-2007-2013) Framework Programme for Research and Technological Development through the FIRST project (FP7-287607). It has also been partially supported by a grant from the Fondo Europeo de Desarrollo Regional (FEDER), projects TEXT-MESS 2.0 (TIN2009-13391-C04-01) and TEXT-COOL 2.0 (TIN2009-13391-C04-02) from the Spanish Government, a Grant from the Valencian Government, project "Desarrollo de Técnicas Inteligentes e Interactivas de Minería de Textos" (PROMETEO/2009/119), and a Grant No. ACOMP/2011/001
ATTOS: Trend Analysis and Thematic through Opinions and Sentiments
El proyecto ATTOS centra su actividad en el estudio y desarrollo de técnicas de análisis de opiniones, enfocado a proporcionar toda la información necesaria para que una empresa o una institución pueda tomar decisiones estratégicas en función a la imagen que la sociedad tiene sobre esa empresa, producto o servicio. El objetivo último del proyecto es la interpretación automática de estas opiniones, posibilitando así su posterior explotación. Para ello se estudian parámetros tales como la intensidad de la opinión, ubicación geográfica y perfil de usuario, entre otros factores, para facilitar la toma de decisiones. El objetivo general del proyecto se centra en el estudio, desarrollo y experimentación de técnicas, recursos y sistemas basados en Tecnologías del Lenguaje Humano (TLH), para conformar una plataforma de monitorización de la Web 2.0 que genere información sobre tendencias de opinión relacionadas con un tema.The ATTOS project will be focused on the study and development of Sentiment Analysis techniques. Thanks to such techniques and resources, companies, but also institutions will be better understood which is the public opinion on them and thus will be able to develop their strategies according to their purposes. The final aim of the project is the automatic interpretation of such opinions according to different variables: opinion, intensity, geographical area, user profile, to support the decision process. The main objective of the project is the study, development and evaluation of techniques, resources and systems based on Human Language Technologies to build up a monitoring platform of the Web 2.0 that generates information on opinion trends related with a topic.El proyecto ATTOS está financiado por el Ministerio de Economía y Competitividad con número de referencia TIN2012-38536-C03-01, TIN2012-38536-C03-02 y TIN2012-38536-C03-03. Con el apoyo de la Red Temática TIMM: Tratamiento de Información Multimodal y Multilingüe. (TIN2011-13070-E)
LIVING-LANG: Tecnologías del lenguaje humano para entidades digitales vivas
This project pursues the dynamic modeling at a spatial-temporal level of digital entities in social media for predicting their behavior. Firstly, digital entities are modelled by identifying the characteristics of individuals through their language and footprint on the network. Then, the extraction of relationships between digital entities is one of the nuclear challenges of the project. The proposal pursues this objective on a semantic level, structuring the information into representations of knowledge suitable for logical processing. Considering the heterogeneous nature of the sources to be dealt with, filtering of information is fundamental, using metrics and quality criteria. This spatial-temporal characterization, together with screening processes, will allow us to study high-performance predictive strategies in the evolution of digital entities. This project is coordinated by the SINAI and GPLSI research groups.This research work is funded by MCIN/AEI/10.13039/501100011033 and, as appropriate, by “ERDF A way of making Europe”, by the “European Union” or by the “European Union NextGenerationEU/PRTR” through the grant LIVING-LANG Project (RTI2018-094653-B-C21 / C22). It is a coordinated project with SINAI and GPLSI as participating research groups. It is also funded by Generalitat Valenciana through the project NL4DISMIS: Natural Language Technologies for dealing with dis-and misinformation (CIPROM/2021/21)
AORESCU: Opinion Analysis in Social Networks and User-Generated Contents
El proyecto AORESCU tiene como objetivos la recopilación y el procesamiento de la información generada por los usuarios sobre una entidad con idea de obtener a partir de ella una serie de indicadores que permitan evaluar la imagen que los usuarios tienen de la misma. La información recuperada puede ser estructurada (p.e. valoraciones numéricas) y no estructurada (fundamentalmente en forma de textos en lenguaje natural). Las técnicas y herramientas utilizadas en el proyecto son adaptables a cualquier dominio. No obstante, se ha elegido el ámbito turístico como dominio de aplicación al tratarse de un sector con una importante actividad económica y para el que es fácil encontrar contenidos para analizar. El proyecto tiene cuatro partes fundamentales: la recuperación de información de distintas fuentes sobre las entidades que pertenecen al dominio de aplicación (hoteles, restaurantes, espacios naturales, monumentos,…), la definición de un modelo de datos para representar esta información, el desarrollo de herramientas de análisis de textos para procesar los comentarios de los usuarios y el desarrollo de una aplicación web que permita analizar los datos procesados.AORESCU project main goals are focused on the retrieval and processing of information generated by users about an entity. The idea is to get insights from this information that help us to understand the perception of users about an entity. We can retrieve two types of information from web 2.0 sources: structured information (e.g. numerical rating) and unstructured (mainly in the form of texts in natural language). The techniques and tools used in the project are adaptable to any domain. We chose the tourism sector as application domain since it is a sector with an important economic activity and because it is easy to find user generated content about touristic resources. The project has four main phases: the retrieval of information from different sources about the entities (for the tourism sector, these entities are hotels, restaurants, natural spaces, monuments,...), the definition of a data model to represent this information, the development of text analysis tools to process user comments and the development of a web application to query and analyze the processed data.El proyecto AORESCU (P11-TIC-7684 MO) está financiado por la Consejería de Innovación, Ciencia y Empresas de la Junta de Andalucía
TextMess 2.0: Las Tecnologías del Lenguaje Humano ante los nuevos retos de la comunicación digital
[ES] El objetivo general de este proyecto se centra en el estudio, desarrollo y
experimentación de diferentes técnicas y sistemas basados en Tecnologías del Lenguaje
Humano (TLH) para el desarrollo de la próxima generación de sistemas de procesamiento
inteligente de la información digital (modelado, recuperación, tratamiento, comprensión y
descubrimiento) afrontando los actuales retos de la comunicación digital. En este nuevo
escenario, los sistemas deben incorporar capacidades de razonamiento que descubrirán la
subjetividad de la información en todos sus contextos (espacial, temporal y emocional)
analizando las diferentes dimensiones de uso (multilingualidad, multimodalidad y registro).[EN] The overall aim of this project focuses on the study, development and
experimentation with different techniques and systems based on Human Language
Technologies (HLT) for developing the next generation of intelligent digital information
processing systems (modelling, retrieval, processing, comprehension and detection), in order to
meet the present challenges posed by digital media. In this new scenario, systems have to
incorporate the reasoning capability to ascertain the subjectivity of information in all contexts
(spatial, temporal and emotional), while analysing the various dimensional uses
(multilingualism, multimodality and register).Martínez-Barco, P.; Ureña López, LA.; Rosso, P.; Martí, MA. (2011). TextMess 2.0: Las Tecnologías del Lenguaje Humano ante los nuevos retos de la comunicación digital. PROCESAMIENTO DEL LENGUAJE NATURAL. 47:339-340. http://hdl.handle.net/10251/28870S3393404
FIRST (Flexible Interactive Reading Support Tool) project: developing a tool for helping autistic people by document simplification
El Trastorno de Espectro Autista (TEA) es un trastorno que impide el correcto desarrollo de funciones cognitivas, habilidades sociales y comunicativas en las personas. Un porcentaje significativo de personas con autismo presentan además dificultades en la comprensión lectora. El proyecto europeo FIRST está orientado a desarrollar una herramienta multilingüe llamada Open Book que utiliza Tecnologías del Lenguaje Humano para identificar obstáculos que dificultan la comprensión lectora de un documento. La herramienta ayuda a cuidadores y personas con autismo transformando documentos escritos a un formato más sencillo mediante la eliminación de dichos obstáculos identificados en el texto. En este artículo se presenta el proyecto FIRST así como la herramienta desarrollada Open Book.Autism Spectrum Disorder (ASD) is a condition that impairs the proper development of people cognitive functions, social skills, and communicative abilities. A significant percentage of autistic people has inadequate reading comprehension skills. The European project FIRST is focused on developing a multilingual tool called Open Book that applies Human Language Technologies (HLT) to identify reading comprehension obstacles in a document. The tool helps ASD people and their carers by transforming written documents into an easier format after removing the reading obstacles identified. In this paper we present the FIRST project and the developed Open Book tool.La investigación que desarrolla este producto de software ha recibido financiación del Séptimo Programa Marco de la Comunidad Europea (FP7-2007-2013), en virtud del acuerdo de subvención n° 287607. También ha sido parcialmente financiada por el gobierno español a través del proyecto ATTOS (TIN2012-38536-C03-0), el gobierno regional de la Junta de Andalucía a través del proyecto AORESCU (TIC - 07684) y la Generalitat Valenciana, mediante la acción complementaria ACOMP/2013/067
REDES: Digital Entities Recognition: Enrichment and Tracking by Language Technologies
El principal objetivo de este proyecto es el desarrollo de un modelo de integración capaz de definir y crear perfiles de entidades digitales. Estas entidades digitales incluirán no sólo las características básicas sino también sus rasgos lingüísticos y sociales, utilizando e integrando todas las fuentes de información disponibles. Concretamente se hará uso de tres tipos de fuentes en la Web: datos no estructurados, datos estructurados y datos abiertos enlazados. A partir de esta gran cantidad de información heterogénea, y mediante el diseño y desarrollo de herramientas, recursos y técnicas basadas en Tecnologías del Lenguaje Humano (TLH), se definirán y generarán entidades digitales entendidas como una estructura de información semántica donde encajar estos datos, con especial atención a las dimensiones espacial (ubicación geográfica) y temporal (variación de los datos que conforman la entidad a lo largo del tiempo).The main objective of this project is to develop an integration model able to define and create digital entities profiles. Such digital entities will include not only the basic, but also their linguistic and social features by means of using and integrating different information sources available. More specifically, three will be the Web sources: unstructured and structured data, but and also linked open data. Starting from this huge and heterogeneous amount of information, digital entities will be generated by means of the design and development of tools, resources and techniques based on NLP. Such entities will consist in a structure of semantic information where to place such data (with special attention to the spatial dimensions (geographical location) and temporal (variation of data that compose the entity during time).El proyecto REDES está financiado por el Ministerio de Economía y Competitividad con número de referencia TIN2015-65136-C2-1-R y TIN2015-65136-C2-2-R
Javascript como lenguaje de Apoyo a la Docencia vía Web
Presentamos el lenguaje Javascript como el idóneo para realizar sitios Web con páginas interactivas, válido para evitar diferencias en aquellas páginas que, para mejorar la navegabilidad, repiten información y utilizables por el alumno como copias locales en su ordenador de modo que no necesite de conexión a Internet para manejarlas e interactuar con ellas
- …