Search CORE

14 research outputs found

A Semantics-based User Interface Model for Content Annotation, Authoring and Exploration

Author: Khalili Ali
Publication venue
Publication date: 26/01/2015
Field of study

The Semantic Web and Linked Data movements with the aim of creating, publishing and interconnecting machine readable information have gained traction in the last years. However, the majority of information still is contained in and exchanged using unstructured documents, such as Web pages, text documents, images and videos. This can also not be expected to change, since text, images and videos are the natural way in which humans interact with information. Semantic structuring of content on the other hand provides a wide range of advantages compared to unstructured information. Semantically-enriched documents facilitate information search and retrieval, presentation, integration, reusability, interoperability and personalization. Looking at the life-cycle of semantic content on the Web of Data, we see quite some progress on the backend side in storing structured content or for linking data and schemata. Nevertheless, the currently least developed aspect of the semantic content life-cycle is from our point of view the user-friendly manual and semi-automatic creation of rich semantic content. In this thesis, we propose a semantics-based user interface model, which aims to reduce the complexity of underlying technologies for semantic enrichment of content by Web users. By surveying existing tools and approaches for semantic content authoring, we extracted a set of guidelines for designing efficient and effective semantic authoring user interfaces. We applied these guidelines to devise a semantics-based user interface model called WYSIWYM (What You See Is What You Mean) which enables integrated authoring, visualization and exploration of unstructured and (semi-)structured content. To assess the applicability of our proposed WYSIWYM model, we incorporated the model into four real-world use cases comprising two general and two domain-specific applications. These use cases address four aspects of the WYSIWYM implementation: 1) Its integration into existing user interfaces, 2) Utilizing it for lightweight text analytics to incentivize users, 3) Dealing with crowdsourcing of semi-structured e-learning content, 4) Incorporating it for authoring of semantic medical prescriptions

Qucosa - Publikationsserver der Universität Leipzig

Integración de anotaciones espaciales automáticas de diferentes fuentes mediante tecnologías semánticas

Author: Lázaro Verónica
Moncla Ludovic
Nogueras-Iso Javier
Publication venue: Ibersid
Publication date: 09/10/2016
Field of study

Information Extraction is one of the main tasks in Text Mining, which is essential for all types of applications exploiting geographic information because there is a big volume of geographic information not directly compiled in specific formats proposed by Geographic Information Systems, but just embedded in plain text sources. Currently, there are several software solutions for the processing of texts and the annotation of spatial named entities. However, the problem of these tools is that their output is based on heterogeneous annotation languages, which make it difficult their integration in other systems.The objective of this work is to propose the conversion of the output of these tools into a common spatial annotation language based on semantic technologies to facilitate their integration and interoperability. As a common annotation language we propose the use of a text annotation based on RDFa and using the vocabulary proposed by the international initiative Schema.org. In order to validate this proposal, we have created the necessary infrastructure to build a semantic repository of documents, where the annotations generated by different annotation tools can be integrated and harmonized.La extracción de información es una de las tareas principales de la minería de textos que resulta de gran utilidad para todo tipo de aplicaciones que exploten la información geográfica ya que hay gran cantidad de información geográfica que no se recopila directamente en formatos reconocibles por Sistemas de Información Geográfica, sino directamente como texto plano. Actualmente existen diversas soluciones informáticas para el procesamiento de textos y la anotación de entidades espaciales. Sin embargo, el problema que tienen estas herramientas es que producen como resultado de este procesamiento un texto anotado con lenguajes de marcado propio, que dificulta su integración en otros sistemas. El objetivo de este trabajo es proponer la conversión de la salida de estas herramientas a un lenguaje de anotación espacial común basado en tecnologías semánticas que facilite su integración e interoperabilidad. Como factor común de los lenguajes de marcado se propone una anotación de textos basada en RDFa y utilizando el vocabulario de la iniciativa internacional Schema.org. Para validar la utilidad de esta propuesta se ha creado la infraestructura necesaria para construir un repositorio semántico de documentos donde se integren y armonicen las anotaciones generadas por diversas herramientas de anotación existentes

Ibersid (E-Journals)

Featured Snippets Results in Google Web Search: An Exploratory Study

Author: A Miklošík
A Strzelecki
A Strzelecki
A Uyar
Ali Khalili
Andrej Miklosik
Artur Strzelecki
D Bilal
D Lewandowski
J Sachse
Katrine Juel Vang
Markus Kattenbeck
Walter Hop
Y Zhao
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 03/12/2019
Field of study

In this paper authors analyzed 163412 keywords and results with featured snippets collected from localized Polish Google search engine. A method-ology for retrieving data from Google search engine was proposed in terms of obtaining necessary data to study featured snippets. It was observed that almost half of featured snippets (48%) is taken from result on first ranking position. Furthermore, some correlations between prepositions and the most often appearing content words in keywords was discovered. Results show that featured snippets are often taken from trustworthy websites like e.g., Wikipedia and are mainly presented in form of a paragraph. Paragraph can be read by Google Assistant or Home Assistant with voice search. We conclude our findings with discussion and research limitations.Comment: 10 pages, 6 tables, accepted to conference ICMarktech'1

arXiv.org e-Print Archive

Crossref

The Snippets Taxonomy in Web Search Engines

Author: A Broder
A Khalili
A Strzelecki
A Uyar
Andrej Miklosik
BJ Jansen
CC Wakefield
D Bilal
D Elsweiler
D Lewandowski
J Sachse
K Juel Vang
K Kousha
R Heersmink
W Hop
WT Kritzinger
Y Zhao
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 23/10/2019
Field of study

In this paper authors analyzed 50 000 keywords results collected from localized Polish Google search engine. We proposed a taxonomy for snippets displayed in search results as regular, rich, news, featured and entity types snippets. We observed some correlations between overlapping snippets in the same keywords. Results show that commercial keywords do not cause results having rich or entity types snippets, whereas keywords resulting with snippets are not commercial nature. We found that significant number of snippets are scholarly articles and rich cards carousel. We conclude our findings with conclusion and research limitations.Comment: 12 pages, 3 table

arXiv.org e-Print Archive

Crossref

Supporting the Linked Data Life Cycle Using an Integrated Tool Stack

Author: A Khalili
H Paulheim
M Samwald
V Janev
Publication venue: 'Springer Science and Business Media LLC'
Publication date
Field of study

Crossref

Estudio del soporte de semántica en gestores de contenidos

Author: Carrión García Alfredo
Publication venue
Publication date: 01/01/2014
Field of study

Uno de los aspectos más importantes de cara a progresar hacia la Web Semántica es convertir el contenido web nuevo y el existente, expres´andolo en lenguaje natural, en su equivalente semántico. El marcado semántico de documentos Web es el primer paso hacia la adaptación del contenido a la Web Semántica y por tanto, los formatos de marcado son una de las herramientas consideradas como fundamentales en el diseño de la Web Semántica, ya que no sólo permiten acceder a la información sino que además definen su semántica, facilitando por tanto su procesamiento automático y posterior reutilización para distintas aplicaciones. Los Sistemas de Gestión de Contenidos Web han tener capacidad para reutilizar los datos que almacenan, automatizando el etiquetado semántico con el fin de hacer el contenido procesable por máquinas y disponer de capacidad para obtener datos RDF de fuentes externas para enriquecer sus contenidos. Este estudio presenta una propuesta metodológica que permite evaluar y comparar el soporte de marcado semántico en distintos Sistemas de Gestión de Contenidos, protagonistas —sin lugar a duda— en la transición hacia la Web Semántica.Máster en Investigación en Tecnologías de la Información y las Comunicacione

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Documental de la Universidad de Valladolid

Propuesta de un vocabulario de microdatos basado en Schema.org para la descripción semántica de publicaciones científicas y la mejora de su visibilidad en entornos abiertos del conocimiento

Author: Rubio Lucas María Ester
Publication venue: Ediciones de la Universidad de Murcia (Editum)
Publication date: 23/11/2015
Field of study

El uso de las tecnologías de la Web Semántica en la descripción de los contenidos publicados en la web con el fin de mejorar la recuperación de información es una realidad hoy en día, habiendo sido adoptadas de pleno por las principales instituciones y empresas de este campo. La web hace ya tiempo que es el medio principal de comunicación científica y los contenidos de las publicaciones científicas no pueden quedar al margen de esta tendencia y deben aprovecharse también de sus ventajas y deben adentrarse en el campo de la descripción semántica promovido por Shotton quien introduce el concepto de “Publicación Semántica". Este concepto engloba las pautas y recomendaciones para el enriquecimiento semántico, así como la propuesta de diferentes ontologías con las que describir publicaciones científicas y recursos bibliográficos. Nuestro trabajo tiene como objetivo proponer un vocabulario de microdatos basado en Schema.org que permita identificar y describir publicaciones científicas. Para elaborar la propuesta se han seguido las pautas marcadas por la comunidad Schema.org (promovida por los motores de búsqueda Google, Yahoo, Bing! y Yandex) y se ha confeccionado un listado de propiedades y términos (básicos y opcionales) que permiten la descripción semántica de los artículos, revistas, autores, estructura de artículos y referencias bibliográficas. Como herramienta de descripción hemos utilizado microdatos debido a su gran auge y facilidad de implementación en la web y a que su uso favorece que los motores de búsqueda puedan inferir información y ser capaces de establecer relaciones entre documentos descritos semánticamente. El vocabulario propuesto facilita a los motores de búsqueda la tarea de recuperar documentos relevantes proporcionando mayor efectividad a las búsquedas. Además, la propuesta permitirá la descripción semántica integral de publicaciones científicas, abarcando desde aspectos formales como la estructura del documento a la justificación de las referencias bibliográficas contenidas

Revistas Científicas de la Universidad de Murcia

Knowledge-Driven Harmonization of Sensor Observations: Exploiting Linked Open Data for IoT Data Streams

Author: Frank Matthias T.
Publication venue: KIT Scientific Publishing, Karlsruhe
Publication date: 01/01/2021
Field of study

The rise of the Internet of Things leads to an unprecedented number of continuous sensor observations that are available as IoT data streams. Harmonization of such observations is a labor-intensive task due to heterogeneity in format, syntax, and semantics. We aim to reduce the effort for such harmonization tasks by employing a knowledge-driven approach. To this end, we pursue the idea of exploiting the large body of formalized public knowledge represented as statements in Linked Open Data

KITopen

Directory of Open Access Books (DOAB)