4 research outputs found

    Mining User-Generated Repair Instructions from Automotive Web Communities

    Get PDF
    The objective of this research was to automatically extract user-generated repair instructions from large amounts of web data. An artifact has been created that classifies a web post as containing a repair instruction or not. Methods from Natural Language Processing are used to transform the unstructured textual information from a web post into a set of numerical features that can be further processed by different Machine Learning Algorithms. The main contribution of this research lies in the design and prototypical implementation of these features. The evaluation shows that the created artifact can accurately distinguish posts containing repair instructions from other posts e.g. containing problem reports. With such a solution, a company can save a lot of time and money that was previously necessary to perform this classification task manually

    Community Engagement and Quality Knowledge with Stackoverflow’s Reputation System: Applications to Bullipedia

    Get PDF
    Bullipedia, the online gastronomic encyclopedia, is an idea yet to be developed. In this work, we analyze Stack Overflow (SO) and extract some good practices from this popular question-and-answer (Q&A) site to incorporate them into the future Bullipedia. SO is an online forum in which users ask and answer questions related to programming, web development, operating systems, and other technical topics. Expertise is rewarded through a detailed reputation system: questions and answers can receive up and downvotes from other members of the community so that their authors (askers and answerers) gain reputation for posing good questions and providing helpful solutions. Besides this, the asker may mark (accept) one of the answers as the best one at any point. In this paper, we present a study on how this reputation system can be used to predict the likely accepted answer (from a set of candidate answers) for a yet unresolved question. In our approach, we selected a subset of questions with their respective answers, and for each answer we created a question-answer pair (quan). Then we extracted a set of key features from every quan, and applied supervised machine learning techniques to train a classifier that learnt, based on those features, whether or not a quan contained the accepted answer for that question. Finally, we made use of the trained classifier to predict if, given a quan (related to a question with no marked answer), its answer might potentially be the accepted one for the question. Our findings show that the model previously obtained predicted the possible answer correctly for every question with high accuracy (88 percent of the time). A question and its accepted answer constitutes a source of quality knowledge, as it provides the solution to a specific problem. We propose to adopt a similar Q&A forum and reputation system for Bullipedia, and then apply a similar classification model to identify the best answer for unsolved questions.    L’encyclopédie gastronomique en ligne Bullipedia est une idée qui reste encore à développer. Dans ce travail, nous analysons le forum 'Stack Overflow (SO)' et soutirons de bonnes pratiques à partir de ce site populaire de questions-réponses afin de les incorporer dans le futur Bullipedia. SO est un forum en ligne dans lequel les utilisateurs posent et répondent à des questions reliées à la programmation, au développement web, aux systèmes d’exploitation, et autres sujets techniques. L’expertise est récompensée au moyen d’un système de réputation détaillé : les questions et les réponses peuvent recevoir des votes pour ou contre des autres membres de la communauté de sorte que leurs auteurs (demandeurs et répondeurs) acquièrent une réputation pour avoir posé de bonnes questions et avoir fourni des solutions utiles. À part cela, le demandeur peut marquer (accepter) l’une des réponses comme étant la meilleure à n’importe quel moment. Dans cet article, nous présentons une étude de la façon dont ce système de réputation peut être utilisé pour prédire la réponse susceptible d’être 'acceptée' (à partir d’une série de réponses) en ce qui concerne une question encore non résolue. Notre approche consiste à choisir un sous-ensemble de questions avec leurs réponses respectives, et pour chaque réponse, nous avons créé une paire question-réponse ('quan'). Nous avons ensuite extrait un ensemble de caractéristiques clés à partir de chaque quan, et avons appliqué des techniques supervisées d’apprentissage automatique pour entraîner un classificateur qui a appris, en fonction de ces caractéristiques, peu importe si la réponse acceptée pour cette question était contenue dans un quan. Enfin, nous avons utilisé le classificateur entraîné pour prédire si, selon un quan (relié à une question sans réponse marquée), sa réponse pouvait potentiellement être la réponse acceptée pour la question. Selon nos constatations, le modèle obtenu précédemment a prédit correctement la réponse possible pour chaque question avec une grande exactitude (88 pour cent du temps). Une question et sa réponse acceptée constituent une source de connaissances de qualité, car elle fournit la solution à un problème précis. Nous proposons d’adopter un forum de questions-réponses semblable pour Bullipedia, et d’appliquer ensuite un modèle de classification semblable pour cerner la meilleure réponse à des questions non résolues.   Mots clés: Site de questions-réponses; Stack Overflow; apprentissage automatique; classification; Linéaire SVC; connaissance; communau

    Sistemas de recomendación en el contexto gastronómico: elaboración y enriquecimiento de un dataset de recetas de cocina

    Full text link
    El uso de sistemas de recomendación en Internet está teniendo una popularidad creciente y son utilizados en diferentes tipos de aplicaciones de la Web. En el contexto de la gastronomía, Internet ha contribuido a la diversidad en la cultura gastronómica de las personas, permitiendo que existan diversos tipos de aplicaciones orientadas a la gastronomía, como por ejemplo las redes sociales de cocina. Los sistemas de recomendación también han aterrizado en el ámbito de la gastronomía, posibilitando la existencia de aplicaciones en la Web que realizan sugerencias de platos de comida a los usuarios. En este trabajo se realiza un proceso completo de minería de datos, que abarca desde la adquisición de datos hasta la puesta en funcionamiento de modelos analíticos predictivos. El trabajo comienza con una revisión del estado del arte en los sistemas de recomendación en el contexto de la gastronomía, principalmente en la búsqueda de datos de recetas de comida que sean totalmente públicos y que cumplan una serie de requerimientos determinados. Ante la complejidad para encontrar este tipo de datos, se ha decidido realizar un proceso de extracción de información, a partir de una fuente de datos de recetas de comida, escogida como resultado de un análisis previo de las diferentes fuentes de datos que hay disponibles. La extracción de datos constituye la parte central de este trabajo, para lo cual se ha desarrollado un software automático que extrae los datos de manera incremental y automática. Este programa ha permitido la obtención de los datos requeridos, coleccionando un total de 362 usuarios, 12151 recetas y 495210 revisiones con rating asociado. El trabajo restante abarca el desarrollo y evaluación de dos sistemas de recomendación, basados en contenido, y utilizando los datos que se han obtenido previamente mediante el software de extracción de datos.The use of recommender systems on the Internet is experiencing a growing popularity as lots of applications across the Web are offering personalized content. In the context of gastronomy, the Internet has contributed positively to the diversity of the gastronomic culture around people, allowing the existence of many different gastronomy-oriented web applications on the Internet, such as cooking-oriented social networks. Recommender systems have also left a mark on gastronomy, since we can find on the Internet lots of applications suggesting food recipes to Internet users. In this work a complete data mining process is performed, starting from data acquisition and ending with the testing of various predictive models. This work starts with the revision of the state-of-the-art trends in gastronomy-oriented recommender systems, mainly focused on the search of any available public dataset about cooking recipes, given a set of restrictions. Given the difficulty at finding this kind of data, we have decided to develop a program to extract that data from a previously analyzed data source that met a set of requirements. The data extraction process is the main part of this work, and in order to get the required data we have developed a software that obtains that data in an incremental and automatic manner, using various scraping and crawling techniques. Through this program we have been able to collect a set of 362 users, 12151 cooking recipes and 495210 revisions with associated rating. The remaining part of this work is oriented to the development and evaluation of two content-based recommender systems that use the data previously gathered by the data extraction software developed

    Social informatics

    Get PDF
    5th International Conference, SocInfo 2013, Kyoto, Japan, November 25-27, 2013, Proceedings</p
    corecore