3 research outputs found

    AUTOMATIC QUESTION GENERATION FOR 5W-1H OPEN DOMAIN OF INDONESIAN QUESTIONS BY USING SYNTACTICAL TEMPLATE-BASED FEATURES FROM ACADEMIC TEXTBOOKS

    Get PDF
    The measuring of education quality in school can be conducted by delivering the examination to the students. Composing questions in the examination process to measure students’ achievement in the school teaching and learning process can be difficult and time consuming. To solve this problem, this research proposes Automatic Question Generation (AQG) method to generate Open Domain Indonesian Question by using syntactical approach. Open Domain questions are questions covering many domains of knowledge. The challenge of generating the questions is how to identify the types of declarative sentences that are potential to be transformed into questions and how to develop the method for generating question automatically. In realizing the method, this research incorporates four stages, namely: the identification of declarative sentence for 8 coarse-class and 19 fine-class sentences, the classification of features for coarseclass sentence and the classification rules for fine-class sentence, the identification of question patterns, and the extraction of sentence’s components as well as the rule generation of questions. The coarse-class classification was carried out based on a machine learning with syntactical features of the sentence, namely: Part of Speech (POS) Tag, the presence of punctuation, the availability of specific verbs, sequence of words, etc. The fine-class classification was carried out based on a set of rules. According to the implementation and experiment, the findings show that the accuracy of coarse-class classification reaches 83.26% by using the SMO classifier and the accuracy of proposed fine-class classification reaches 92%. The generated questions are categorized into three types, namely: TRUE, UNDERSTANDABLE, and FALSE. The accuracy of generated TRUE and UNDERSTANDABLE questions reaches 88.66%. Thus, the obtained results show that the proposed method is prospective to implement in the real situation

    Utilization of common human queries in ranking automatically generated questions

    Get PDF
    We challenge a form of Paragraph-to-Question generation task. We propose a question generation system which can be used to generate questions from a body of text. Our goal is to rank the generated questions by using Community-based Question Answering systems to calculate the importance of the questions beside tree kernel functions to assess how grammatically correct they are. The main assumption that our project is based on is that each body of text is related to a topic of interest and it has comprehensive information about the topic

    Interrogation des sources de données hétérogènes : une approche pour l'analyse des requêtes

    Get PDF
    No english summary availableLe volume des données structurées produites devient de plus en plus considérable. Plusieurs aspects concourent à l’accroissement du volume de données structurées. Au niveau du Web, le Web de données (Linked Data) a permis l’interconnexion de plusieurs jeux de données disponibles créant un gigantesque hub de données. Certaines applications comme l’extraction d’informations produisent des données pour peupler des ontologies. Les capteurs et appareils (ordinateur, smartphone, tablette) connectés produisent de plus en plus de données. Les systèmes d’information d’entreprise sont également affectés. Accéder à une information précise devient de plus en plus difficile. En entreprise, des outils de recherche ont été mis au point pour réduire la charge de travail liée à la recherche d’informations, mais ces outils génèrent toujours des volumes importants. Les interfaces en langage naturel issues du Traitement Automatique des Langues peuvent être mises à contribution pour permettre aux utilisateurs d’exprimer naturellement leurs besoins en informations sans se préoccuper des aspects techniques liés à l’interrogation des données structurées. Les interfaces en langage naturel permettent également d’avoir une réponse concise sans avoir besoin de fouiller d’avantage dans une liste de documents. Cependant actuellement, ces interfaces ne sont pas assez robustes pour être utilisées par le grand public ou pour répondre aux problèmes de l’hétérogénéité ou du volume de données. Nous nous intéressons à la robustesse de ces systèmes du point de vue de l’analyse de la question. La compréhension de la question de l’utilisateur est une étape importante pour retrouver la réponse. Nous proposons trois niveaux d’interprétation pour l’analyse d’une question : domaine abstrait, domaine concret et la relation domaine abstrait/concret. Le domaine abstrait s’intéresse aux données qui sont indépendantes de la nature des jeux de données. Il s’agit principalement des données de mesures. L’interprétation s’appuie sur la logique propre à ces mesures. Le plus souvent cette logique a été bien décrite dans les autres disciplines, mais la manière dont elle se manifeste en langage naturel n’a pas fait l’objet d’une large investigation pour les interfaces en langage naturel basées sur des données structurées. Le domaine concret couvre le domaine métier de l’application. Il s’agit de bien interpréter la logique métier. Pour une base de données, il correspond au niveau applicatif (par opposition à la couche des données). La plupart des interfaces en langage naturel se focalisent principalement sur la couche des données. La relation domaine abstrait/concret s’intéresse aux interprétations qui chevauchent les deux domaines. Du fait de l’importance de l’analyse linguistique, nous avons développé l’infrastructure pour mener cette analyse. L’essentiel des interfaces en langage naturel qui tentent de répondre aux problématiques du Web de données (Linked Data) ont été développées jusqu’ici pour la langue anglaise et allemande. Notre interface tente d’abord de répondre à des questions en françai
    corecore