4 research outputs found

    Enabling entity retrieval by exploiting Wikipedia as a semantic knowledge source

    Get PDF
    This dissertation research, PanAnthropon FilmWorld, aims to demonstrate direct retrieval of entities and related facts by exploiting Wikipedia as a semantic knowledge source, with the film domain as its proof-of-concept domain of application. To this end, a semantic knowledge base concerning the film domain has been constructed with the data extracted/derived from 10,640 Wikipedia pages on films and additional pages on film awards. The knowledge base currently contains 209,266 entities and 2,345,931 entity-centric facts. Both the knowledge base and the corresponding semantic search interface are based on the coherent classification of entities. Entity-centric facts are also consistently represented as tuples. The semantic search interface (http://dlib.ischool.drexel.edu:8080/sofia/PA/) supports multiple types of semantic search functions, which go beyond the traditional keyword-based search function, including the main General Entity Retrieval Query (GERQ) function, which is concerned with retrieving all entities that match the specified entity type, subtype, and semantic conditions and thus corresponds to the main research problem. Two types of evaluation have been performed in order to evaluate (1) the quality of information extraction and (2) the effectiveness of information retrieval using the semantic interface. The first type of evaluation has been performed by inspecting 11,495 film-centric facts concerning 100 films. The results have confirmed high data quality with 99.96% average precision and 99.84% average recall. The second type of evaluation has been performed by conducting an experiment with human subjects. The experiment involved having the subjects perform a retrieval task by using both the PanAnthropon interface and the Internet Movie Database (IMDb) interface and comparing their task performance between the two interfaces. The results have confirmed higher effectiveness of the PanAnthropon interface vs. the IMDb interface (83.11% vs. 40.78% average precision; 83.55% vs. 40.26% average recall). Moreover, the subjects’ responses to the post-task questionnaire indicate that the subjects found the PanAnthropon interface to be highly usable and easily understandable as well as highly effective. The main contribution from this research therefore consists in achieving the set research goal, namely, demonstrating the utility and feasibility of semantics-based direct entity retrieval.Ph.D., Information Studies -- Drexel University, 201

    Mecanismos semánticos orientados a la flexibilidad de los repositorios para objetos de aprendizaje

    Get PDF
    Los nuevos enfoques de reutilización de materiales didácticos en formato digital usan el concepto de "objeto de aprendizaje'' como elemento clave para la creación de repositorios distribuidos, tales como MERLOT o CAREO. Dichos repositorios, tendrían la finalidad de describir los multiples recursos didácticos existentes en la Web, almacenando dichos recursos y sus metadatos (o solamente estos últimos), y posibilitando la realización de búsquedas. Sin embargo, la existencia de diferentes definiciones de "objeto de aprendizaje'' dificulta la gestión y tratamiento uniforme de los recursos, lo que sugiere una nueva generación de repositorios flexibles donde tengan lugar todas las conceptualizaciones del término. En este escenario, las ontologías juegan un importante rol para el soporte de un modelo semántico sólido que cumpla con los nuevos requisitos que la flexibilidad impone. No obstante, la falta de flexibilidad no es la única carencia de que adolecen los actuales repositorios de objetos de aprendizaje. En esta investigación se ha analizado además la falta de cumplimiento de las especificaciones de los estándares actuales de e-learning. Las conceptualizaciones de "objeto de aprendizaje'' definidas en IEEE LOM o en ADL SCORM no tienen lugar en la mayor parte de los repositorios, lo cual dificulta en gran medida tanto el procesamiento de la metainformación asociada a los objetos de aprendizaje como el conseguir utilizarla en sistemas gestores de aprendizaje (LMS) conformes a una especificación. En la mayoría de las aplicaciones actuales no se tiene en cuenta un modelo de representación formal del conocimiento general que incorpore semántica computacional, dentro de la visión de lo que se ha dado en llamar Web semántica. Nuevas bases de conocimiento como OpenCyc, sugieren la posibilidad de definir las relaciones semánticas dentro de la información descrita. Conceptos de nuestro conocimiento general, tales como país , rey, médico, o también relaciones del tipo "X cerca de Y'', pueden ser referenciados sin ambigüedades ni variaciones debidas a las posibles interpretaciones de los mismos haciendo uso de una base de conocimiento en forma de ontología como OpenCyc. Este hecho, genera un nuevo espectro de posibilidades de inferencia sobre los registros que contienen la información de metadatos de los objetos de aprendizaje. Para aprovechar al máximo el conocimiento almacenado en los registros de metadatos de los objetos de aprendizaje almacenados en el repositorio, se propone un esquema que permita describir el significado de la metainformación dentro de los registros de metadatos del repositorio. El propósito de esta investigación es definir este tipo de conocimiento mediante un esquema que permita describir el significado de la metainformación existente en los registros de metadatos de un repositorio de objetos de aprendizaje. Para ello, será necesario definir una nueva arquitectura de repositorio, basada en un modelo formal representado en un lenguaje de ontologías (concretamente OWL) para el procesamiento automático de la metainformación por parte de agentes software externos al repositorio. Esta propuesta aportará nuevas y más potentes funcionalidades sobre los repositorios actuales, gracias a la posibilidad de ejecutar inferencias sobre el conocimiento albergado en los registros del repositorio

    Mecanismos semánticos orientados a la flexibilidad de los repositorios para objetos de aprendizaje

    Get PDF
    Los nuevos enfoques de reutilización de materiales didácticos en formato digital usan el concepto de "objeto de aprendizaje'' como elemento clave para la creación de repositorios distribuidos, tales como MERLOT o CAREO. Dichos repositorios, tendrían la finalidad de describir los multiples recursos didácticos existentes en la Web, almacenando dichos recursos y sus metadatos (o solamente estos últimos), y posibilitando la realización de búsquedas. Sin embargo, la existencia de diferentes definiciones de "objeto de aprendizaje'' dificulta la gestión y tratamiento uniforme de los recursos, lo que sugiere una nueva generación de repositorios flexibles donde tengan lugar todas las conceptualizaciones del término. En este escenario, las ontologías juegan un importante rol para el soporte de un modelo semántico sólido que cumpla con los nuevos requisitos que la flexibilidad impone. No obstante, la falta de flexibilidad no es la única carencia de que adolecen los actuales repositorios de objetos de aprendizaje. En esta investigación se ha analizado además la falta de cumplimiento de las especificaciones de los estándares actuales de e-learning. Las conceptualizaciones de "objeto de aprendizaje'' definidas en IEEE LOM o en ADL SCORM no tienen lugar en la mayor parte de los repositorios, lo cual dificulta en gran medida tanto el procesamiento de la metainformación asociada a los objetos de aprendizaje como el conseguir utilizarla en sistemas gestores de aprendizaje (LMS) conformes a una especificación. En la mayoría de las aplicaciones actuales no se tiene en cuenta un modelo de representación formal del conocimiento general que incorpore semántica computacional, dentro de la visión de lo que se ha dado en llamar Web semántica. Nuevas bases de conocimiento como OpenCyc, sugieren la posibilidad de definir las relaciones semánticas dentro de la información descrita. Conceptos de nuestro conocimiento general, tales como país , rey, médico, o también relaciones del tipo "X cerca de Y'', pueden ser referenciados sin ambigüedades ni variaciones debidas a las posibles interpretaciones de los mismos haciendo uso de una base de conocimiento en forma de ontología como OpenCyc. Este hecho, genera un nuevo espectro de posibilidades de inferencia sobre los registros que contienen la información de metadatos de los objetos de aprendizaje. Para aprovechar al máximo el conocimiento almacenado en los registros de metadatos de los objetos de aprendizaje almacenados en el repositorio, se propone un esquema que permita describir el significado de la metainformación dentro de los registros de metadatos del repositorio. El propósito de esta investigación es definir este tipo de conocimiento mediante un esquema que permita describir el significado de la metainformación existente en los registros de metadatos de un repositorio de objetos de aprendizaje. Para ello, será necesario definir una nueva arquitectura de repositorio, basada en un modelo formal representado en un lenguaje de ontologías (concretamente OWL) para el procesamiento automático de la metainformación por parte de agentes software externos al repositorio. Esta propuesta aportará nuevas y más potentes funcionalidades sobre los repositorios actuales, gracias a la posibilidad de ejecutar inferencias sobre el conocimiento albergado en los registros del repositorio
    corecore