    Unifying multiple descriptions to determine the details of an everyday event can be a challenging task for humans. Though incorporating other modalities like images or videos can help humans unify such descriptions, this remains a challenging task for computational systems. We define entity-based scene understanding as the task of identifying the entities in a visual scene from multiple descriptions. This task subsumes coreference resolution, bridging resolution, and grounding to produce mutually consistent relations between entity mentions and groundings between mentions and image regions. Using neural classifiers and integer linear program inference, we show that grounding is improved when forced to conform to relation predictions. We introduce the Flickr30k Entities v2 dataset, and show how our methods can be used to automatically generate similarly rich annotations for the MSCOCO dataset

    Discourse entities are an important construct in computational linguistics. They introduce an additional level of representation between referring expressions and that which they refer to: the level of mental representation. In this thesis, I first explore some semiotic and communication theoretic aspects of discourse entities. Then, I develop the concept of "entity status". Entity status is a meta-variable that collects two dimensions formations about the role that an entity plays a discourse, and management informations about how the entity is created, accessed, and updated. Finally, the concept is applied to two case studies: the first one focusses on the choice of referring expressions in radio news, while the second looks at the conditions under which a discourse entity can be mentioned as a pronoun.Diskursentitäten sind ein wichtiger Konstrukt in der Computerlinguistik. Sie führen eine zusätzliche Repräsentationsebene ein zwischen referierenden Ausdrücken, und dem, auf das diese Ausdrücke referieren: die Ebene der mentalen Repräsentation. In dieser Dissertation erkunde ich zunächst einige semiotische und kommunikationstheoretische Aspekte von Diskursentitäten. Danach führe ich den Begriff des "Entitätenstatus" ein. Entitätenstatus ist eine Meta-Variable, die zwei Dimensionen von Information über eine Diskursentität vereinigt: Struktur-Informationen über die Rolle, die eine Entität im Diskurs spielt, und Verwaltungs-Informationen über Erstellung, Zugriff und Update. Dieser Begriff wird schlussendlich auf zwei Fallstudien angewendet: die erste Studie konzentriert sich auf die Wahl referierender Ausdrücke in Radionachrichten, während die zweite Studie die Bedingungen untersucht, in denen eine Diskursentität als Pronomen erwähnt werden kann

    This open access book covers all facets of entity-oriented search—where “search” can be interpreted in the broadest sense of information access—from a unified point of view, and provides a coherent and comprehensive overview of the state of the art. It represents the first synthesis of research in this broad and rapidly developing area. Selected topics are discussed in-depth, the goal being to establish fundamental techniques and methods as a basis for future research and development. Additional topics are treated at a survey level only, containing numerous pointers to the relevant literature. A roadmap for future research, based on open issues and challenges identified along the way, rounds out the book. The book is divided into three main parts, sandwiched between introductory and concluding chapters. The first two chapters introduce readers to the basic concepts, provide an overview of entity-oriented search tasks, and present the various types and sources of data that will be used throughout the book. Part I deals with the core task of entity ranking: given a textual query, possibly enriched with additional elements or structural hints, return a ranked list of entities. This core task is examined in a number of different variants, using both structured and unstructured data collections, and numerous query formulations. In turn, Part II is devoted to the role of entities in bridging unstructured and structured data. Part III explores how entities can enable search engines to understand the concepts, meaning, and intent behind the query that the user enters into the search box, and how they can provide rich and focused responses (as opposed to merely a list of documents)—a process known as semantic search. The final chapter concludes the book by discussing the limitations of current approaches, and suggesting directions for future research. Researchers and graduate students are the primary target audience of this book. A general background in information retrieval is sufficient to follow the material, including an understanding of basic probability and statistics concepts as well as a basic knowledge of machine learning concepts and supervised learning algorithms

    Institute for Communicating and Collaborative SystemsAlthough entity coherence, i.e. the coherence that arises from certain patterns of references to entities, is of attested importance for characterising a descriptive text structure, whether and how current formal models of entity coherence such as Centering Theory can be used for the purposes of natural language generation remains unclear. This thesis investigates this issue and sets out to explore which of the many formulations of Centering best suits text structuring. In doing this, we assume text structuring to be a search task where different orderings of propositions are evaluated according to scores assigned by a metric. The main question behind this study is how to choose a metric of entity coherence among many alternatives as the only guidance to the text structuring component of a system that produces descriptions of objects. Different ways of defining metrics of entity coherence using Centering’s notions are discussed and a general corpus-based methodology is introduced to identify which of these metrics constitute the most promising candidates for search-based text structuring before the actual generation of the descriptive structure takes place. The performance of a large set of metrics is estimated empirically in a series of computational experiments using two kinds of data: (i) a reliably annotated corpus representing the genre of interest and (ii) data derived from an existing natural language generation system and ordered according to the instructions of a domain expert. A final experiment supplements our main methodology by automatically evaluating the best scoring orderings of some of the best performing metrics in comparison to an upper bound defined by orderings produced by multiple experts on additional application-specific data and a lower bound defined by a random baseline. The main findings are summarised as follows: In general, the simplest metric of entity coherence constitutes a very robust baseline for both datasets. However, when the metrics are modified according to an additional constraint on entity coherence, then the baseline is beaten in domain (ii). The employed modification is supported by the subsidiary evaluation which renders all employed metrics superior to the random baseline and helps identify the metric which overall constitutes the most suitable candidate (among the ones investigated) for search-based descriptive text structuring in domain (ii). This thesis provides substantial insight into the role of entity coherence as a descriptive text structuring constraint. Viewing Centering from an NLG perspective raises a series of interesting challenges that the thesis identifies and attempts to investigate to a certain extent. The general evaluation methodology and the results of the empirical studies are useful for any subsequent attempt to generate a descriptive text structure in the context of an application that makes use of the notion of entity coherence as modelled by Centering

    Al igual que otros campos que dependen en gran medida de las funcionalidades ofrecidas por las tecnologías de la información y las comunicaciones (IT), la biomedicina y la salud necesitan cada vez más la implantación de normas y mecanismos ampliamente aceptados para el intercambio de datos, información y conocimiento. Dicha necesidad de compatibilidad e interoperabilidad va más allá de las cuestiones sintácticas y estructurales, pues la interoperabilidad semántica es también requerida. La interoperabilidad a nivel semántico es esencial para el soporte computarizado de alertas, flujos de trabajo y de la medicina basada en evidencia cuando contamos con la presencia de sistemas heterogéneos de Historia Clínica Electrónica (EHR). El modelo de arquetipos clínicos respaldado por el estándar CEN/ISO EN13606 y la fundación openEHR ofrece un mecanismo para expresar las estructuras de datos clínicos de manera compartida e interoperable. El modelo ha ido ganando aceptación en los últimos años por su capacidad para definir conceptos clínicos basados en un Modelo de Referencia común. Dicha separación a dos capas permite conservar la heterogeneidad de las implementaciones de almacenamiento a bajo nivel, presentes en los diferentes sistemas de EHR. Sin embargo, los lenguajes de arquetipos no soportan la representación de reglas clínicas ni el mapeo a ontologías formales, ambos elementos fundamentales para alcanzar la interoperabilidad semántica completa pues permiten llevar a cabo el razonamiento y la inferencia a partir del conocimiento clínico existente. Paralelamente, es reconocido el hecho de que la World Wide Web presenta requisitos análogos a los descritos anteriormente, lo cual ha fomentado el desarrollo de la Web Semántica. El progreso alcanzado en este terreno, con respecto a la representación del conocimiento y al razonamiento sobre el mismo, es combinado en esta tesis con los modelos de EHR con el objetivo de mejorar el enfoque de los arquetipos clínicos y ofrecer funcionalidades que se corresponden con nivel más alto de interoperabilidad semántica. Concretamente, la investigación que se describe a continuación presenta y evalúa un enfoque para traducir automáticamente las definiciones expresadas en el lenguaje de definición de arquetipos de openEHR (ADL) a una representación formal basada en lenguajes de ontologías. El método se implementa en la plataforma ArchOnt, que también es descrita. A continuación se estudia la integración de dichas representaciones formales con reglas clínicas, ofreciéndose un enfoque para reutilizar el razonamiento con instancias concretas de datos clínicos. Es importante ver como el acto de compartir el conocimiento clínico expresado a través de reglas es coherente con la filosofía de intercambio abierto fomentada por los arquetipos, a la vez que se extiende la reutilización a proposiciones de conocimiento declarativo como las utilizadas en las guías de práctica clínica. De esta manera, la tesis describe una técnica de mapeo de arquetipos a ontologías, para luego asociar reglas clínicas a la representación resultante. La traducción automática también permite la conexión formal de los elementos especificados en los arquetipos con conceptos clínicos equivalentes provenientes de otras fuentes como son las terminologías clínicas. Dichos enlaces fomentan la reutilización del conocimiento clínico ya representado, así como el razonamiento y la navegación a través de distintas ontologías clínicas. Otra contribución significativa de la tesis es la aplicación del enfoque mencionado en dos proyectos de investigación y desarrollo clínico, llevados a cabo en combinación con hospitales universitarios de Madrid. En la explicación se incluyen ejemplos de las aplicaciones más representativas del enfoque como es el caso del desarrollo de sistemas de alertas orientados a mejorar la seguridad del paciente. No obstante, la traducción automática de arquetipos clínicos a lenguajes de ontologías constituye una base común para la implementación de una amplia gama de actividades semánticas, razonamiento y validación, evitándose así la necesidad de aplicar distintos enfoques ad-hoc directamente sobre los arquetipos para poder satisfacer las condiciones de cada contexto