8 research outputs found

    Automatic movie analysis and summarisation

    Get PDF
    Automatic movie analysis is the task of employing Machine Learning methods to the field of screenplays, movie scripts, and motion pictures to facilitate or enable various tasks throughout the entirety of a movie’s life-cycle. From helping with making informed decisions about a new movie script with respect to aspects such as its originality, similarity to other movies, or even commercial viability, all the way to offering consumers new and interesting ways of viewing the final movie, many stages in the life-cycle of a movie stand to benefit from Machine Learning techniques that promise to reduce human effort, time, or both. Within this field of automatic movie analysis, this thesis addresses the task of summarising the content of screenplays, enabling users at any stage to gain a broad understanding of a movie from greatly reduced data. The contributions of this thesis are four-fold: (i)We introduce ScriptBase, a new large-scale data set of original movie scripts, annotated with additional meta-information such as genre and plot tags, cast information, and log- and tag-lines. To our knowledge, Script- Base is the largest data set of its kind, containing scripts and information for almost 1,000 Hollywood movies. (ii) We present a dynamic summarisation model for the screenplay domain, which allows for extraction of highly informative and important scenes from movie scripts. The extracted summaries allow for the content of the original script to stay largely intact and provide the user with its important parts, while greatly reducing the script-reading time. (iii) We extend our summarisation model to capture additional modalities beyond the screenplay text. The model is rendered multi-modal by introducing visual information obtained from the actual movie and by extracting scenes from the movie, allowing users to generate visual summaries of motion pictures. (iv) We devise a novel end-to-end neural network model for generating natural language screenplay overviews. This model enables the user to generate short descriptive and informative texts that capture certain aspects of a movie script, such as its genres, approximate content, or style, allowing them to gain a fast, high-level understanding of the screenplay. Multiple automatic and human evaluations were carried out to assess the performance of our models, demonstrating that they are well-suited for the tasks set out in this thesis, outperforming strong baselines. Furthermore, the ScriptBase data set has started to gain traction, and is currently used by a number of other researchers in the field to tackle various tasks relating to screenplays and their analysis

    Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs

    Get PDF
    The research topic of this document deals with a particular setting of information retrieval (IR), referred to as collaborative information retrieval (CIR), in which a set of multiple collaborators share the same information need. Collaboration is particularly used in case of complex tasks in which an individual user may have insufficient knowledge and may benefit from the expertise/knowledge or complementarity of other collaborators. This multi-user context rises several challenges in terms of search interfaces as well as ranking models, since new paradigms must be considered, namely division of labor, sharing of knowledge and awareness. These paradigms aim at avoiding redundancy between collaborators in order to reach a synergic effect within the collaboration process. Several approaches have been proposed in the literature. First, search interfaces have been oriented towards a user mediation in order to support collaborators' actions through information storage or communication tools. Second, more close to our contributions, previous work focus on the information access issue by designing ranking models adapted to collaborative environments dealing with the challenges of (1) personalizing result set to collaborators, (2) favoring the sharing of knowledge, (3) dividing the labor among collaborators and/or (4) considering particular roles of collaborators within the information seeking process.In this thesis, we focus, more particularly, on two main aspects of the collaboration: - The expertise of collaborators by proposing retrieval models adapted to the domain expertise level of collaborators. The expertise levels might be vertical, in the case of domain expert and novice, or horizontal when collaborators have different subdomain expertise. We, therefore, propose two CIR models on two steps including a document relevance scoring with respect to each role and a document allocation to user roles through the Expectation–Maximization (EM) learning method applied on the document relevance scoring in order to assign documents to the most likely suited user. - The complementarity of collaborators throughout the information seeking process by mining their roles on the assumptions that collaborators might be different and complementary in some skills. We propose two algorithms based either on predefined roles or latent roles which (1) learns about the roles of the collaborators using various search-related features for each individual involved in the search session, and (2) adapts the document ranking to the mined roles of collaborators.Cette thèse traite du domaine particulier de la recherche d'information (RI) appelé RI collaborative (RIC), qui considère un ensemble d'utilisateurs interagissant afin de satisfaire un besoin en information partagé. La collaboration est particulièrement utilisée dans le cas de tâches complexes ou exploratoires pour lesquelles les compétences d'un utilisateur unique peuvent être insuffisantes. La collaboration permet ainsi de rassembler les compétences complémentaires des utilisateurs afin de produire un résultat collectif qui dépasse l’agrégation des résultats individuels.Le contexte multi-utilisateurs ouvre de nombreuses perspectives en termes de support à la collaboration au travers la définition d'interfaces dédiées et de modèles d'ordonnancement basés sur les paradigmes de la collaboration. Ces derniers, dont principalement la division du travail, le partage des connaissances et la conscience de l'environnement collaboratif, doivent être pris en compte afin d'éviter la redondance entre les collaborateurs et de bénéficier de l'effet synergique de la collaboration. Plusieurs approches ont été proposées dans la littérature. En premier lieu, les interfaces de recherche ont été orientées vers des médiations utilisateurs dans le but de proposer un support aux actions des collaborateurs au travers de moyens de communication et de stockage d'information. En deuxième lieu, plus proches de nos travaux, certains auteurs se sont intéressés à la problématique d'accès à l'information en définissant des modèles d'ordonnancement adaptés à l'environnement collaboratif afin de répondre aux enjeux suivants : (1) la personnalisation des ordonnancements aux collaborateurs, (2) l'amélioration du partage des connaissances, (3) la division du travail entre les collaborateurs et/ou (4) la considération des rôles des collaborateurs dans le processus de RI.Dans ce manuscrit, nous nous intéressons particulièrement aux aspects suivants de la collaboration : - L'expertise de domaine des collaborateurs vis-à-vis du sujet du besoin en information partagé en proposant deux modèles d’ordonnancement collaboratifs basés (a) sur une distinction verticale des niveaux d’expertise avec les rôles d’expert et de novice de domaine et (b) une distinction horizontale de l’expertise où un groupe d’experts de sous-domaines collaborent pour répondre à un besoin en information à multiples facettes. Ces deux modèles sont composés de deux étapes principales qui estiment le score de pertinence de chaque document pour chacun des rôles puis alloue le document aux collaborateurs grâce à l'algorithme de la maximisation de l'espérance (EM). L'objectif est d'assigner un document au collaborateur le plus à même de le juger en fonction de son niveau d'expertise.- La complémentarité des utilisateurs lors d'un processus de RIC au travers de méthodes d’apprentissage, en temps réel, des rôles des collaborateurs. Ceci a pour objectif de bénéficier des compétences pour lesquelles ils sont les plus efficaces et d’ordonnancer, ainsi, les documents en fonction des rôles des collaborateurs. Également, deux approches, supervisée et non supervisée, sont proposées permettant respectivement d’apprendre les rôles des collaborateurs en fonction de leurs actions. Ces approches sont basées respectivement sur (a) des rôles prédéfinis dans l’état de l’art et (b) des méta-rôles latents des collaborateurs non prédéfinis
    corecore