Search CORE

2,165 research outputs found

Adaptive Semantic Annotation of Entity and Concept Mentions in Text

Author: Mendes Pablo N.
Publication venue: CORE Scholar
Publication date: 01/01/2013
Field of study

The recent years have seen an increase in interest for knowledge repositories that are useful across applications, in contrast to the creation of ad hoc or application-specific databases. These knowledge repositories figure as a central provider of unambiguous identifiers and semantic relationships between entities. As such, these shared entity descriptions serve as a common vocabulary to exchange and organize information in different formats and for different purposes. Therefore, there has been remarkable interest in systems that are able to automatically tag textual documents with identifiers from shared knowledge repositories so that the content in those documents is described in a vocabulary that is unambiguously understood across applications. Tagging textual documents according to these knowledge bases is a challenging task. It involves recognizing the entities and concepts that have been mentioned in a particular passage and attempting to resolve eventual ambiguity of language in order to choose one of many possible meanings for a phrase. There has been substantial work on recognizing and disambiguating entities for specialized applications, or constrained to limited entity types and particular types of text. In the context of shared knowledge bases, since each application has potentially very different needs, systems must have unprecedented breadth and flexibility to ensure their usefulness across applications. Documents may exhibit different language and discourse characteristics, discuss very diverse topics, or require the focus on parts of the knowledge repository that are inherently harder to disambiguate. In practice, for developers looking for a system to support their use case, is often unclear if an existing solution is applicable, leading those developers to trial-and-error and ad hoc usage of multiple systems in an attempt to achieve their objective. In this dissertation, I propose a conceptual model that unifies related techniques in this space under a common multi-dimensional framework that enables the elucidation of strengths and limitations of each technique, supporting developers in their search for a suitable tool for their needs. Moreover, the model serves as the basis for the development of flexible systems that have the ability of supporting document tagging for different use cases. I describe such an implementation, DBpedia Spotlight, along with extensions that we performed to the knowledge base DBpedia to support this implementation. I report evaluations of this tool on several well known data sets, and demonstrate applications to diverse use cases for further validation

OhioLINK Electronic Thesis and Dissertation Center

CORE

CHORUS Deliverable 2.2: Second report - identification of multi-disciplinary key issues for gap analysis toward EU multimedia search engines roadmap

Author: Bardeli Rolf
Boujemaa Nozha
Compañó Ramón
Doch Christoph
Geurts Joost
Gouraud Henri
Joly Alexis
Karlgren Jussi
King Paul
Kompatsiaris Yiannis
Köhler Joachim
Le Moine Jean-Yves
Ortgies Robert
Point Jean-Charles
Rotenberg Boris
Rudström Åsa
Schreer Oliver
Sebe Nicu
Snoek Cees
Publication venue: Chorus Project Consortium
Publication date: 01/01/2008
Field of study

After addressing the state-of-the-art during the first year of Chorus and establishing the existing landscape in multimedia search engines, we have identified and analyzed gaps within European research effort during our second year. In this period we focused on three directions, notably technological issues, user-centred issues and use-cases and socio- economic and legal aspects. These were assessed by two central studies: firstly, a concerted vision of functional breakdown of generic multimedia search engine, and secondly, a representative use-cases descriptions with the related discussion on requirement for technological challenges. Both studies have been carried out in cooperation and consultation with the community at large through EC concertation meetings (multimedia search engines cluster), several meetings with our Think-Tank, presentations in international conferences, and surveys addressed to EU projects coordinators as well as National initiatives coordinators. Based on the obtained feedback we identified two types of gaps, namely core technological gaps that involve research challenges, and “enablers”, which are not necessarily technical research challenges, but have impact on innovation progress. New socio-economic trends are presented as well as emerging legal challenges

RISE – Research Institutes of Sweden

Digitala Vetenskapliga Arkivet - Academic Archive On-line

Swedish Institute of Computer Science Publications Database

Software institutes' Online Digital Archive

Knowledge Expansion of a Statistical Machine Translation System using Morphological Resources

Author: EHRMANN MAUD
TURCHI MARCO
Publication venue: Centro de Innovación y Desarrollo Tecnológico en Cómputo, Instituto Politécnico Nacional, Mexico
Publication date: 09/08/2011
Field of study

Translation capability of a Phrase-Based Statistical Machine Translation (PBSMT) system mostly depends on parallel data and phrases that are not present in the training data are not correctly translated. This paper describes a method that efficiently expands the existing knowledge of a PBSMT system without adding more parallel data but using external morphological resources. A set of new phrase associations is added to translation and reordering models; each of them corresponds to a morphological variation of the source/target/both phrases of an existing association. New associations are generated using a string similarity score based on morphosyntactic information. We tested our approach on En-Fr and Fr-En translations and results showed improvements of the performance in terms of automatic scores (BLEU and Meteor) and reduction of out-of-vocabulary (OOV) words. We believe that our knowledge expansion framework is generic and could be used to add different types of information to the model.JRC.G.2-Global security and crisis managemen

JRC Publications Repository

Quantitative Characteristics of Human-Written Short Stories as a Metric for Automated Storytelling

Author: Gervás Pablo
León Carlos
Tapscott Allan
Torre Moreno Pablo de la
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2020
Field of study

Evaluating the extent to which computer-produced stories are structured like human-invented narratives can be an important component of the quality of a story plot. In this paper, we report on an empirical experiment in which human subjects have invented short plots in a constrained scenario. The stories were annotated according to features commonly found in existing automatic story generators. The annotation was designed to measure the proportion and relations of story components that should be used in automatic computational systems for matching human behaviour. Results suggest that there are relatively common patterns that can be used as input data for identifying similarity to human-invented stories in automatic storytelling systems. The found patterns are in line with narratological models, and the results provide numerical quantification and layout of story components. The proposed method of story analysis is tested over two additional sources, the ROCStories corpus and stories generated by automated storytellers, to illustrate the valuable insights that may be derived from them

Repositorio de Objetos de Docencia e Investigación de la Universidad de Cádiz

Formal Linguistic Models and Knowledge Processing. A Structuralist Approach to Rule-Based Ontology Learning and Population

Author: Di Buono Maria Pia
Publication venue: Universita degli studi di Salerno
Publication date: 02/03/2016
Field of study

2013 - 2014The main aim of this research is to propose a structuralist approach for knowledge processing by means of ontology learning and population, achieved starting from unstructured and structured texts. The method suggested includes distributional semantic approaches and NL formalization theories, in order to develop a framework, which relies upon deep linguistic analysis... [edited by author]XIII n.s

EleA@UniSA - Università degli Studi di Salerno

Screw-semantic content analysis for repair and evaluation of web accessibility

Author: Ge Fangfang
Huang Feng
Pei Chenrui
Shao Tao
Sun Deen
Zhang Sam
Publication venue
Publication date: 01/01/2017
Field of study

Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2017A Internet tem continuamente vindo a ser integrada no nosso quotidiano, tanto num ambiente profissional, como num de entretenimento. Tornou-se um recurso importante para as nossas atividades diárias, desde o trabalho à recreação. Isto significa que cada vez mais as pessoas navegam na WWW. Contudo, existem muitos tipos de utilizadores e alguns deles sofrem de deficiências, restringindo a sua experiência de utilização. Isto leva a que haja uma procura por umaWeb mais acessível para todos os tipos de utilizadores. No entanto, este processo seria mais difícil se não houvessem normas que recomendassem especificações para os sites seguirem e cumprirem, a fim de torná-los mais acessíveis. Felizmente, há uma organização designada pelas siglas WAI, Web Accessibility Initiative, que estabelece essas especificações como um conjunto de diretrizes (por exemplo, WCAG, Web Content Accessibility Guidelines), afim de ajudar no desenvolvimento das páginas web. Para ajudar os desenvolvedores, há também ferramentas como QualWeb, TotalValidator, entre outras, que permitem que os sites sejam avaliados de acordo com as diretrizes mencionadas acima, fornecendo resultados específicos. No entanto, a maioria destas ferramentas não obtém resultados com base na semântica de uma página e só conseguem fazer avaliações de sintaxe. Por exemplo, essas aplicações não avaliam se as descrições das imagens são realmente descritoras das mesmas. Nestes casos, a maioria das ferramentas pede ao desenvolvedor/utilizador para verificar manualmente. Além disso, nenhuma ferramenta conhecida consegue executar avaliações de acessibilidade Web e reparação automática. A reparação automática ajuda os utilizadores e programadoresWeb a navegar sem restrições, reparando no mesmo instante, e a transcrever de uma forma mais acessível o código, respetivamente. Assim, o principal tópico desta pesquisa é a análise de conteúdo Web semântico para melhorar a acessibilidade da Web e a sua reparação automática. Cada etapa de desenvolvimento, descrita nesta tese, será integrada no Qualweb, um avaliador de acessibilidade Web que pode realizar análise de conteúdo dinâmico. Neste documento é apresentado, primeiramente, um estudo sobre as tecnologias e metodologias existentes para a avaliação semântica e reparação de código nas páginas Web e algumas noções necessárias para o entendimento do trabalho que foi realizado. É também descrito como funciona o Qualweb e a sua arquitetura, pelo que é a ferramenta principal a beneficiar deste estudo. Relativamente ao trabalho, é apresentada uma ferramenta capaz de efetuar avaliações semânticas e geração de descrições sob conteúdo da Web, para fins de acessibilidade web, designada por Screw. Estes conteúdos irão corresponder a elementos de uma página Web que, resumidamente, poderão ser conteúdos textuais, referências a imagens e elementos/atributos do DOM que descrevam estas informações. Desta forma irão haver dois tipos de entrada no sistema, o elemento a ser descrito e a sua descrição. Este elemento poderá ser textual ou uma imagem, no entanto para verificar a semalhança semântica entre dois tipos de contéudos diferentes (imagem e texto) é necessário converter a imagem para texto, através de interpretadores que oferecem um conjunto de conceitos, que de alguma forma descrevem a imagem. Após este processo, para cada conceito é retirada a relação semântica com a descrição e com um conjunto de domínios existentes no sistema e o mesmo acontece entre a descrição e os mesmos domínios. Estes domínios são uma componente importante do sistema, pois oferecem um conjunto de dados que contextualizam tanto os conceitos como a descrição. Isto é, se a descrição e um conceito estiverem semânticamente relacionados com um mesmo domínio, então existe uma probabilidade de estes dois estarem também semanticamente relacionados. Isto irá fortalecer a relação semântica entre o conteúdo a ser descrito e a descrição. Após obter estes valores é aplicado um algoritmo que irá ditar se a descrição descreve ou não o contéudo. Para cada conceito e domínio existe, então, um valor semântico que os relaciona. Se a descrição tive algum valor relacional com esse mesmo domínio, então é aplicada uma fórmula de máximo entre, o valor da relação entre o conceito e o domínio e o valor da relação entre o conceito e a descrição. Após efetuar isto para todos os conceitos, é feita uma média de todos os valores acima de 0, isto é, que sejam positivos. Esta média irá corresponder à relação semântica entre a descrição e o conteúdo a ser descrito. Para além disto, é contado o número de vezes em que não existe relação entre os conceitos e a descrição, se este número estiver acima de um percentil, 0.6, então significa que não existe relação semântica entre a descrição e a imagem. A descrição é considerada boa ou má, se o valor obtido, pela média, está acima ou abaixo de um limite, 0.14. No fim, este algoritmo irá retornar a média e o veredito,“true” para uma boa descrição ou “false’ para uma má descrição. A estrutura de Screw é constituída por um conjunto de módulos distintos, distribuídos pelos dois processos principais, avaliação e reparação. O sistema baseia-se num Web service, permitindo interoperabilidade para ser usado não só pelo Qualweb, mas também por outras ferramentas. Além desta característica, a modularidade foi outro aspeto relevante no desenvolvimento do sistema, evitando dependências entre módulos e facilitando os desenvolvimentos sobre este. O algoritmo apresentado é distribuído pelos módulos da avaliação: Processador de Recuperação de Informações Semânticas (SIRP), Gestor de Domínio (DM) e Inspetor de Relações (RI). O SIRP é responsável por colecionar informações resumidas sobre o conteúdo, isto é, através de interpretadores e sumarizadores é fornecido um conjunto de conceitos que representam o conteúdo em palavras, no caso das imagens, ou versões resumidas, no caso de texto. O DM é responsável por obter a aproximação semântica entre domínios com a descrição e com os conceitos fornecidos pelo SIRP. Os domínios são uma componente importante do sistema, pois valorizam a relação entre os parâmetros avaliados, no sentido em que, se um dado conceito está relacionado com um certo domínio e a descrição também, então o domínio reforça a relação semântica destes dois. O RI dá a aproximação semântica entre a descrição e os conceitos, relacionando-os também com os valores obtidos no DM. O último passo da avaliação é oferecer o resultado final por meio dos módulos anteriores. O descritor do conteúdo será positivo ou negativo de acordo com o valor obtido pelo algoritmo, caso seja maior ou menor que um determinado limite, respetivamente. Na parte de reparação existem duas fases: a fase de obtenção de novas descrições e a fase de avaliação e comparação de valores. A primeira fase reúne uma série de frases geradas por serviços externos ao sistema (atualmente); a segunda fase, avalia cada uma das novas descrições com o módulo de avaliação do Screw e compara os valores de cada um com todos os valores existentes, até encontrar o melhor valor que seja acima do mesmo limite do algoritmo. Caso não haja nenhuma descrição cujo o valor seja positivo, é gerada uma descrição estática com os três melhores conceitos retirados do SIRP e que representam a imagem. A operação das interpretações, sumarizações, aproximação semântica e geração de novas descrições é suportada por um conjunto de serviços externos ao sistema, nomeadamente Clarifai, Indico e Swoogle. Estes serviços não são estacionários, isto é, podem ser alterados de acordo com a necessidade do desenvolvimento, beneficiando da modularidade do sistema. Foram realizados dois estudos neste trabalho, através de questionários online, os quais permitiram definir os melhores parâmetros do algoritmo, de forma a otimizar o seu melhor desempenho. Para além disso, estes serviram para entender a qualidade das avaliações feitas pelo sistema e também serviram para entender a qualidade das descrições de imagens atualmente naWeb. Esses estudos basearam-se em avaliações humanas sobre um conjunto de imagens e os seus textos alternativos (relativo ao atributo “alt”), para comparação entre as suas classificações e os resultados do sistema. O primeiro estudo permitiu afinar o algoritmo até atingir a melhor correlação possível, sendo que o melhor caso atingiu os 0,58, o que significa que é uma associação forte. No mesmo estudo são fornecidas os cinco melhores conceitos fornecidos pelo SIRP e a conclusão é que estas palavras nem sempre representam as imagens em questão. No segundo estudo, foram avaliadas todas as descrições geradas pelo módulo de reparação, no qual revelou que as frases geradas pelo sistema são no geral insuficientes como alternativas à descrição original. Por outro lado, no contexto da Web, existem muitas situações em que não existe qualquer tipo de descrição das imagens, o que afeta a leitura efetuada pelos leitores de ecrã. Apesar do valor não ser muito positivo, este módulo consegue gerar descrições que podem ser inseridas em atributos que não existem. Por fim, esta framework acabou por ser incluída no Qualweb, para integrar novas perspetivas de avaliação da acessibilidade Web providas de avaliações semânticas. Isto é, como foi mencionado o Qualweb só realizava avaliações sintáticas e esta integração permitiu introduzir e/ou melhorar técnicas relativas a estes problemas, como por exemplo a identificação e descrição dos “alts” nas imagens. Para além desta ferramenta, foi desenvolvido um plugin para o Google Chrome, que através dos resultados tanto do Qualweb como do Screw, concretiza reparações às páginas Web relativas às técnicas que exigem avaliação semântica de imagens.The Internet has continuously found its way into our everyday lives, both in a professional setting as well as in entertainment. It has become an important resource for our daily activities, from work to recreation. This means that increasingly more people are browsing theWWW. There are many types of users and some of them suffer from impairments, constraining their user experience. This leads to the pursuit of an accessible Web for all types of users. This process is aided with a set of guidelines (e.g. WCAG) established by a organization, W3C. These guidelines aside from being a useful guide for Web developers, they are also used byWeb accessibility tools that evaluateWeb pages in order to check issues. However most of these tools cannot resort to a page’s semantics and can only make syntactic evaluations. Also, they are not capable to repairing them. Therefore, this two subjects are the main objectives covered in this study: semantic evaluation and repair for web accessibility. For this purpose a tool called Screw is presented, which performs semantic evaluations to verify the relation between Web content (text and images) and their descriptions, applying an algorithm. For the repair mechanism, it generates new descriptions when the originals are considered bad by the tool. To support this development, two studies were carried, one for the algorithm’s optimization and the other one to verify the quality of Screw’s assessments, after the algorithm has been adjusted. For Web accessibility, Screw is integrated in Qualweb, a Web accessibility evaluator, in order to improve its evaluations to a new stage with semantic evaluation. Additionally, a plugin for Google Chrome browser was developed to repairWeb pages in real time, according to Qualweb and Screw’s results

Universidade de Lisboa: Repositório.UL

Institutional Repository of Ningbo Institute of Material Technology & Engineering, CAS

Screw-semantic content analysis for repair and evaluation of web accessibility

Author: Matos Inês Teixeira de
Publication venue
Publication date: 01/01/2017
Field of study

Universidade de Lisboa: Repositório.UL

Simple identification tools in FishBase

Author: Atanacio Rachek
Bailly Nicolas
Froese Rainer
Reyes Jr. Rodolfo
Publication venue: EUT - Edizioni Università di Trieste
Publication date: 01/01/2010
Field of study

Simple identification tools for fish species were included in the FishBase information system from its inception. Early tools made use of the relational model and characters like fin ray meristics. Soon pictures and drawings were added as a further help, similar to a field guide. Later came the computerization of existing dichotomous keys, again in combination with pictures and other information, and the ability to restrict possible species by country, area, or taxonomic group. Today, www.FishBase.org offers four different ways to identify species. This paper describes these tools with their advantages and disadvantages, and suggests various options for further development. It explores the possibility of a holistic and integrated computeraided strategy

OceanRep

OpenstarTs