6 research outputs found

    MIME : NLG in pre-hospital care

    Get PDF
    This work is supported by the RCUK dot.rural Digital Economy Research Hub, University of Aberdeen (Grant reference: EP/G066051/1)Publisher PD

    DrivingBeacon : Driving Behaviour Change Support System Considering Mobile Use and Geo-information

    Get PDF
    Publisher PD

    Narrative generation by associative network extraction from real-life temporal data

    Full text link
    Les données portant sur des événements abondent dans notre société technologique. Une façon intéressante de présenter des données temporelles réelles pour faciliter leur interprétation est un récit généré automatiquement. La compréhension de récits implique la construction d'un réseau causal par le lecteur. Les systèmes de data-to-text narratifs semblent reconnaître l'importance des relations causales. Cependant, celles-ci jouent un rôle secondaire dans leurs planificateurs de document et leur identification repose principalement sur des connaissances du domaine. Cette thèse propose un modèle d'interprétation assistée de données temporelles par génération de récits structurés à l'aide d'un mélange de règles d'association automatiquement extraites et définies manuellement. Les associations suggèrent des hypothèses au lecteur qui peut ainsi construire plus facilement une représentation causale des événements. Ce modèle devrait être applicable à toutes les données temporelles répétitives, comprenant de préférence des actions ou activités, telles que les données d'activités de la vie quotidienne. Les règles d'association séquentielles sont choisies en fonction des critères de confiance et de signification statistique tels que mesurés dans les données d'entraînement. Les règles d'association basées sur les connaissances du monde et du domaine exploitent la similitude d'un certain aspect d'une paire d'événements ou des patrons causaux difficiles à détecter statistiquement. Pour interpréter une période à résumer déterminée, les paires d'événements pour lesquels une règle d'association s'applique sont associées et certaines associations supplémentaires sont dérivées pour former un réseau associatif. L'étape la plus importante du pipeline de génération automatique de texte (GAT) est la planification du document, comprenant la sélection des événements et la structuration du document. Pour la sélection des événements, le modèle repose sur la confiance des associations séquentielles pour sélectionner les faits les plus inhabituels. L'hypothèse est qu'un événement qui est impliqué par un autre avec une probabilité relativement élevée peut être laissé implicite dans le texte. La structure du récit est appelée le fil associatif ramifié, car il permet au lecteur de suivre les associations du début à la fin du texte. Il prend la forme d'un arbre couvrant sur le sous-réseau associatif précédemment sélectionné. Les associations qu'il contient sont sélectionnées en fonction de préférences de type d'association et de la distance temporelle relative. Le fil associatif ramifié est ensuite segmenté en paragraphes, phrases et syntagmes et les associations sont converties en relations rhétoriques. L'étape de microplanification définit des patrons lexico-syntaxiques décrivant chaque type d'événement. Lorsque deux descriptions d'événement doivent être assemblées dans la même phrase, un marqueur discursif exprimant la relation rhétorique spécifiée est employé. Un événement principal et un événement principal précédent sont déterminés pour chaque phrase. Lorsque le parent de l'événement principal dans le fil associatif n'est pas l'événement principal précédent, un anaphorique est ajouté au marqueur discursif frontal de la phrase. La réalisation de surface peut être effectuée en anglais ou en français grâce à des spécifications lexico-syntaxiques bilingues et à la bibliothèque Java SimpleNLG-EnFr. Les résultats d'une évaluation de la qualité textuelle montrent que les textes sont compréhensibles et les choix lexicaux adéquats.Data about events abounds in our technological society. An attractive way of presenting real-life temporal data to facilitate its interpretation is an automatically generated narrative. Narrative comprehension involves the construction of a causal network by the reader. Narrative data-to-text systems seem to acknowledge causal relations as important. However, they play a secondary role in their document planners and their identification relies mostly on domain knowledge. This thesis proposes an assisted temporal data interpretation model by narrative generation in which narratives are structured with the help of a mix of automatically mined and manually defined association rules. The associations suggest causal hypotheses to the reader who can thus construct more easily a causal representation of the events. This model should be applicable to any repetitive temporal data, preferably including actions or activities, such as Activity of Daily Living (ADL) data. Sequential association rules are selected based on the criteria of confidence and statistical significance as measured in training data. World and domain knowledge association rules are based on the similarity of some aspect of a pair of events or on causal patterns difficult to detect statistically. To interpret a specific period to summarize, pairs of events for which an association rule applies are associated. Some extra associations are then derived. Together the events and associations form an associative network. The most important step of the Natural Language Generation (NLG) pipeline is document planning, comprising event selection and document structuring. For event selection, the model relies on the confidence of sequential associations to select the most unusual facts. The assumption is that an event that is implied by another one with a relatively high probability may be left implicit in the text. The structure of the narrative is called the connecting associative thread because it allows the reader to follow associations from the beginning to the end of the text. It takes the form of a spanning tree over the previously selected associative sub-network. The associations it contains are selected based on association type preferences and relative temporal distance. The connecting associative thread is then segmented into paragraphs, sentences, and phrases and the associations are translated to rhetorical relations. The microplanning step defines lexico-syntactic templates describing each event type. When two event descriptions need to be assembled in the same sentence, a discourse marker expressing the specified rhetorical relation is employed. A main event and a preceding main event are determined for each sentence. When the associative thread parent of the main event is not the preceding main event, an anaphor is added to the sentence front discourse marker. Surface realization can be performed in English or French thanks to bilingual lexico-syntactic specifications and the SimpleNLG-EnFr Java library. The results of a textual quality evaluation show that the texts are understandable and the lexical choices adequate

    Data-driven approaches to content selection for data-to-text generation

    Get PDF
    Data-to-text systems are powerful in generating reports from data automatically and thus they simplify the presentation of complex data. Rather than presenting data using visualisation techniques, data-to-text systems use human language, which is the most common way for human-human communication. In addition, data-to-text systems can adapt their output content to users’ preferences, background or interests and therefore they can be pleasant for users to interact with. Content selection is an important part of every data-to-text system, because it is the module that decides which from the available information should be conveyed to the user. This thesis makes three important contributions. Firstly, it investigates data-driven approaches to content selection with respect to users’ preferences. It develops, compares and evaluates two novel content selection methods. The first method treats content selection as a Markov Decision Process (MDP), where the content selection decisions are made sequentially, i.e. given the already chosen content, decide what to talk about next. The MDP is solved using Reinforcement Learning (RL) and is optimised with respect to a cumulative reward function. The second approach considers all content selection decisions simultaneously by taking into account data relationships and treats content selection as a multi-label classification task. The evaluation shows that the users significantly prefer the output produced by the RL framework, whereas the multi-label classification approach scores significantly higher than the RL method in automatic metrics. The results also show that the end users’ preferences should be taken into account when developing Natural Language Generation (NLG) systems. NLG systems are developed with the assistance of domain experts, however the end users are normally non-experts. Consider for instance a student feedback generation system, where the system imitates the teachers. The system will produce feedback based on the lecturers’ rather than the students’ preferences although students are the end users. Therefore, the second contribution of this thesis is an approach that adapts the content to “speakers” and “hearers” simultaneously. It considers initially two types of known stakeholders; lecturers and students. It develops a novel approach that analyses the preferences of the two groups using Principal Component Regression and uses the derived knowledge to hand-craft a reward function that is then optimised using RL. The results show that the end users prefer the output generated by this system, rather than the output that is generated by a system that mimics the experts. Therefore, it is possible to model the middle ground of the preferences of different known stakeholders. In most real world applications however, first-time users are generally unknown, which is a common problem for NLG and interactive systems: the system cannot adapt to user preferences without prior knowledge. This thesis contributes a novel framework for addressing unknown stakeholders such as first time users, using Multi-objective Optimisation to minimise regret for multiple possible user types. In this framework, the content preferences of potential users are modelled as objective functions, which are simultaneously optimised using Multi-objective Optimisation. This approach outperforms two meaningful baselines and minimises regret for unknown users
    corecore