13 research outputs found
Information search and similarity based on Web 2.0 and semantic technologies
The World Wide Web provides a huge amount of information described in natural language at the current society’s disposal. Web search engines were born from the necessity of finding a particular piece of that information. Their ease of use and their utility have turned these engines into one of the most used web tools at a daily basis. To make a query, users just have to introduce a set of words - keywords - in natural language and the engine answers with a list of ordered resources which contain those words. The order is given by
ranking algorithms. These algorithms use basically two types of features: dynamic and
static factors. The dynamic factor has into account the query; that is, those documents
which contain the keywords used to describe the query are more relevant for that query.
The hyperlinks structure among documents is an example of a static factor of most current
algorithms. For example, if most documents link to a particular document, this document
may have more relevance than others because it is more popular.
Even though currently there is a wide consensus on the good results that the majority of
web search engines provides, these tools still suffer from some limitations, basically 1) the
loneliness of the searching activity itself; and 2) the simple recovery process, based mainly
on offering the documents that contains the exact terms used to describe the query.
Considering the first problem, there is no doubt in the lonely and time-consuming process
of searching relevant information in the World Wide Web. There are thousands of users out
there that repeat previously executed queries, spending time in taking decisions of which
documents are relevant or not; decisions that may have been taken previously and that
may be do the job for similar or identical queries for other users.
Considering the second problem, the textual nature of the current Web makes the
reasoning capability of web search engines quite restricted; queries and web resources are
described in natural language that, in some cases, can lead to ambiguity or other semantic-related
difficulties. Computers do not know text; however, if semantics is incorporated to the text, meaning and sense is incorporated too. This way, queries and web resources will
not be mere sets of terms, but lists of well-defined concepts.
This thesis proposes a semantic layer, known as Itaca, which joins simplicity and
effectiveness in order to endow with semantics both the resources stored in the World Wide
Web and the queries used by users to find those resources. This is achieved through
collaborative annotations and relevance feedback made by the users themselves, which
describe both the queries and the web resources by means of Wikipedia concepts.
Itaca extends the functional capabilities of current web search engines, providing a new
ranking algorithm without dispensing traditional ranking models. Experiments show that this
new architecture offers more precision in the final results obtained, keeping the simplicity
and usability of the web search engines existing so far. Its particular design as a layer
makes feasible its inclusion to current engines in a simple way.Internet pone a disposición de la sociedad una enorme cantidad de información descrita en
lenguaje natural. Los buscadores web nacieron de la necesidad de encontrar un fragmento
de información entre tanto volumen de datos. Su facilidad de manejo y su utilidad los han
convertido en herramientas de uso diario entre la población. Para realizar una consulta, el
usuario sólo tiene que introducir varias palabras clave en lenguaje natural y el buscador
responde con una lista de recursos que contienen dichas palabras, ordenados en base a
algoritmos de ranking. Estos algoritmos usan dos tipos de factores básicos: factores
dinámicos y estáticos. El factor dinámico tiene en cuenta la consulta en sí; es decir,
aquellos documentos donde estén las palabras utilizadas para describir la consulta serán
más relevantes para dicha consulta. La estructura de hiperenlaces en los documentos
electrónicos es un ejemplo de factor estático. Por ejemplo, si muchos documentos enlazan
a otro documento, éste último documento podrá ser más relevante que otros.
Si bien es cierto que actualmente hay consenso entre los buenos resultados de estos
buscadores, todavía adolecen de ciertos problemas, destacando 1) la soledad en la que un
usuario realiza una consulta; y 2) el modelo simple de recuperación, basado en ver si un
documento contiene o no las palabras exactas usadas para describir la consulta.
Con respecto al primer problema, no hay duda de que navegar en busca de cierta
información relevante es una práctica solitaria y que consume mucho tiempo. Hay miles de
usuarios ahí fuera que repiten sin saberlo una misma consulta, y las decisiones que toman
muchos de ellos, descartando la información irrelevante y quedándose con la que
realmente es útil, podrían servir de guía para otros muchos.
Con respecto al segundo, el carácter textual de la Web actual hace que la capacidad de
razonamiento en los buscadores se vea limitada, pues las consultas y los recursos están
descritos en lenguaje natural que en ocasiones da origen a la ambigüedad. Los equipos
informáticos no comprenden el texto que se incluye. Si se incorpora semántica al lenguaje, se incorpora significado, de forma que las consultas y los recursos electrónicos no son
meros conjuntos de términos, sino una lista de conceptos claramente diferenciados.
La presente tesis desarrolla una capa semántica, Itaca, que dota de significado tanto a los
recursos almacenados en la Web como a las consultas que pueden formular los usuarios
para encontrar dichos recursos. Todo ello se consigue a través de anotaciones
colaborativas y de relevancia realizadas por los propios usuarios, que describen tanto
consultas como recursos electrónicos mediante conceptos extraídos de Wikipedia. Itaca
extiende las características funcionales de los buscadores web actuales, aportando un
nuevo modelo de ranking sin tener que prescindir de los modelos actualmente en uso. Los
experimentos demuestran que aporta una mayor precisión en los resultados finales,
manteniendo la simplicidad y usabilidad de los buscadores que se conocen hasta ahora.
Su particular diseño, a modo de capa, hace que su incorporación a buscadores ya
existentes sea posible y sencilla.Programa Oficial de Posgrado en Ingeniería TelemáticaPresidente: Asunción Gómez Pérez.- Secretario: Mario Muñoz Organero.- Vocal: Anselmo Peñas Padill
Programación en C con aprendizaje activo, evaluación continua y trabajo en equipo: caso de estudio
La adaptación al Espacio Europeo de Educación Superior
ha supuesto el rediseño de parte de los planes
de estudios por parte de las universidades. En
este artículo se describe el proceso de concepción,
diseño y despliegue de una asignatura de programación
en C que incluye como principales novedades la
adopción de una metodología de aprendizaje activo,
un esquema de evaluación continua y la inclusión de
trabajo en equipo. La asignatura se ha impartido en
el curso 2009/2010 a cerca de 200 alumnos. Durante
este período se ha obtenido abundante realimentación
por parte de los alumnos sobre aquellos aspectos
del curso más relevantes (positivos y negativos).
Esta información ha permitido comprender más en
detalle el proceso de asimilación y la efectividad de
los cambios introducidos.Peer Reviewe
SEBIO: A Semantic BioInformatics Platform for the New E-Science
Knowledge integration and exchange of data within and among organizations is a universally recognized need in bioinformatics and genomics research through the e-science field. The main problem looming over the lack of integration is the fact that the current Web is an environment primarily developed for human users and micro-array data resources lack widely accepted standards; this leads to a tremendous data heterogeneity. Using semantic technologies as a key technology for interoperation of various datasets enables knowledge integration of the vast amount of biological and biomedical data. In this paper, we aim at providing a semantically-enhanced bioinformatics platform (SEBIO), which handles these issues effectively. We will describe the problems arisen and the solutions applied so far. For that, the SEBIO approach is unfolded and its main components explained, to see in more detail how perfectly it copes with the aforementioned difficulties
Ztreamy: a middleware for publishing semantic streams on the web
In order to make the semantic sensor Web a reality, middleware for efficiently publishing semantically-annotated data streams on the Web is needed. Such middleware should be designed to allow third parties to reuse and mash-up data coming from streams. These third parties should even be able to publish their own value-added streams derived from other streams and static data. In this work we present Ztreamy, a scalable middleware platform for the distribution of semantic data streams through HTTP. The platform provides an API for both publishing and consuming streams, as well as built-in filtering services based on data semantics. A key contribution of our proposal with respect to other related systems in the state of the art is its scalability. Our experiments with Ztreamy show that a single server is able, in some configurations, to publish a real-time stream to up to 40.000 simultaneous clients with delivery delays of just a few seconds, largely outperforming other systems in the state of the art.Publicad
Course Quality Improvement using Mid-semester Feedback
Quality control mechanisms are becoming more important in higher educational institutions. Student evaluation of teaching is typically used to obtain feedback from students about a learning experience but its effect in the course may take too long. Fast feedback mechanisms, in exchange, look at obtaining feedback in a way that corrective measures can be applied quickly. In this paper, a process is described to obtain feedback from the students about a course, analyse the received results, and identify the most significant aspects. The process has been applied to a course and led to some adjustments that had immediate impact on the course.Work partially funded by the Learn3 project, "Plan Nacional de I+D+I TIN2008-05163/TSI", the Best Practice Network ICOPER (Grant No. ECP-2007-EDU-417007), the Flexo Project "Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnolóogica" (Ref. TSI-020301-2008-19), and the "Emadrid: Investigación y desarrollo de tecnologías para el e-learning en la Comunidad de Madrid" project (S2009/TIC-1650).Publicad
Programación en C con aprendizaje activo, evaluación continua y trabajo en equipo: caso de estudio
La adaptación al Espacio Europeo de Educación Superior ha supuesto el rediseño de parte de los planes de estudios por parte de las universidades. En este artículo se describe el proceso de concepción, diseño y despliegue de una asignatura de programación en C que incluye como principales novedades la adopción de una metodología de aprendizaje activo, un esquema de evaluación continua y la inclusión de trabajo en equipo. La asignatura se ha impartido en el curso 2009/2010 a cerca de 200 alumnos. Durante este período se ha obtenido abundante realimentación por parte de los alumnos sobre aquellos aspectos del curso más relevantes (positivos y negativos). Esta información ha permitido comprender más en detalle el proceso de asimilación y la efectividad de los cambios introducidos.Este trabajo ha sido financiado en parte por el proyecto Emadrid: Investigación y desarrollo de tecnologías para el e-learning en la Comunidad de Madrid (Ref. S2009/TIC-1650), el proyecto Learn3 del Plan Nacional de I+D+I (Ref. TIN2008-05163/TSI) y el proyecto Flexo del Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica (Ref. TSI-020301-2008-19
Primeros experimentos para evaluar la calidad de fuentes de información en Twitter
Actas del III Congreso Nacional de i+d en Defensa y Seguridad, DESEi+d 2015, Centro Universitario de la Defensa de Marín, Escuela Naval Militar, 19 y 20 de noviembre de 2015Las redes sociales en línea gozan de una gran popularidad. A su vez, es bien conocido que buena parte de la información que se difunde en dichas redes es en muchos casos de baja calidad, rumores o simplemente información falsa. En esta comunicación se presentan los primeros resultados de un trabajo que se está realizando para evaluar la calidad de fuentes de información en línea.Este trabajo está parcialmente financiado por el Ministerio de Economía y Competitividad a través del proyecto “HERMES-SMARTDRIVER” (TIN2013-46801-C4-2-R) y por la Comunidad de Madrid
a través del proyecto “eMadrid” (S2013/ICE-2715
Primeros resultados hacia la detección automática de bots en Twitter
XII Jornadas de Ingeniería Telemática (JITEL 2015), 14-16 de octubre de 2015, Palma de Mallorca, Illes Balears, EspañaLas redes sociales en línea gozan de una gran popularidad. A su vez, es bien conocido que parte de la información que se difunde en dichas redes es, en muchos casos, de baja calidad, rumores o simplemente información falsa, difundida frecuentemente por cuentas automáticas o bots (aquellas que son gestionadas por programas de ordenador). En esta comunicación se presentan los primeros resultados de un trabajo que se está realizando para la detección de cuentas bot en Twitter. Entre los rasgos innovadores de este trabajo está el de utilizar indicadores sintácticos para analizar cuentas de Twitter.Este trabajo está parcialmente financiado por el Ministerio de Economía y Competitividad a través del proyecto “HERMES-SMARTDRIVER” (TIN2013-46801-C4-2-R) y por la Comunidad de Madrid a través del proyecto “eMadrid” (S2013/ICE-2715
Building concept maps by adapting semantic distance metrics to Wikipedia
Building and checking concept maps is an active research topic in visual learning. Concept maps are intended to show visual representations of interrelated concepts in educational and professional settings. For the last decades, numerous formulas have been proposed to compute the semantic proximity between any pair of concepts in the map. A review of the employment of semantic distances in concept map construction shows the lack of a clear criterion to select a suitable formula. Traditional metrics can be basically grouped depending on the representation of their knowledge source: statistic approaches based on co-occurrence of words in big corpora; path-based methods using lexical structures, like taxonomies; and multi-source methods which combine statistic approaches and path-based methods. On the one hand, path-based measures give better results than corpora-based metrics, but they cannot be used to process specific concepts or proper nouns due to the limited vocabulary of the taxonomies used. On the other side, information obtained from big corpora - including the World Wide Web - is not organized in a specific way and natural language processing techniques are usually needed in order to obtain acceptable results. In this research Wikipedia is proposed since it does not have such limitations. This article defines an approach to adapt path-based semantic similarity measures to Wikipedia for building concept maps. Experimental evaluation with a well-known set of human similarity judgments shows that the Wikipedia adapted metrics obtains equal or even better results when compared with the non-adapted approaches
Programación en C con aprendizaje activo, evaluación continua y trabajo en equipo: caso de estudio
La adaptación al Espacio Europeo de Educación Superior
ha supuesto el rediseño de parte de los planes
de estudios por parte de las universidades. En
este artículo se describe el proceso de concepción,
diseño y despliegue de una asignatura de programación
en C que incluye como principales novedades la
adopción de una metodología de aprendizaje activo,
un esquema de evaluación continua y la inclusión de
trabajo en equipo. La asignatura se ha impartido en
el curso 2009/2010 a cerca de 200 alumnos. Durante
este período se ha obtenido abundante realimentación
por parte de los alumnos sobre aquellos aspectos
del curso más relevantes (positivos y negativos).
Esta información ha permitido comprender más en
detalle el proceso de asimilación y la efectividad de
los cambios introducidos.Peer Reviewe