4 research outputs found
Mining User-Generated Repair Instructions from Automotive Web Communities
The objective of this research was to automatically extract user-generated repair instructions from large amounts of web data. An artifact has been created that classifies a web post as containing a repair instruction or not. Methods from Natural Language Processing are used to transform the unstructured textual information from a web post into a set of numerical features that can be further processed by different Machine Learning Algorithms. The main contribution of this research lies in the design and prototypical implementation of these features. The evaluation shows that the created artifact can accurately distinguish posts containing repair instructions from other posts e.g. containing problem reports. With such a solution, a company can save a lot of time and money that was previously necessary to perform this classification task manually
Community Engagement and Quality Knowledge with Stackoverflow’s Reputation System: Applications to Bullipedia
Bullipedia, the online gastronomic encyclopedia, is an idea yet to be developed. In this work, we analyze Stack Overflow (SO) and extract some good practices from this popular question-and-answer (Q&A) site to incorporate them into the future Bullipedia. SO is an online forum in which users ask and answer questions related to programming, web development, operating systems, and other technical topics. Expertise is rewarded through a detailed reputation system: questions and answers can receive up and downvotes from other members of the community so that their authors (askers and answerers) gain reputation for posing good questions and providing helpful solutions. Besides this, the asker may mark (accept) one of the answers as the best one at any point. In this paper, we present a study on how this reputation system can be used to predict the likely accepted answer (from a set of candidate answers) for a yet unresolved question. In our approach, we selected a subset of questions with their respective answers, and for each answer we created a question-answer pair (quan). Then we extracted a set of key features from every quan, and applied supervised machine learning techniques to train a classifier that learnt, based on those features, whether or not a quan contained the accepted answer for that question. Finally, we made use of the trained classifier to predict if, given a quan (related to a question with no marked answer), its answer might potentially be the accepted one for the question. Our findings show that the model previously obtained predicted the possible answer correctly for every question with high accuracy (88 percent of the time). A question and its accepted answer constitutes a source of quality knowledge, as it provides the solution to a specific problem. We propose to adopt a similar Q&A forum and reputation system for Bullipedia, and then apply a similar classification model to identify the best answer for unsolved questions. L’encyclopédie gastronomique en ligne Bullipedia est une idée qui reste encore à développer. Dans ce travail, nous analysons le forum 'Stack Overflow (SO)' et soutirons de bonnes pratiques à partir de ce site populaire de questions-réponses afin de les incorporer dans le futur Bullipedia. SO est un forum en ligne dans lequel les utilisateurs posent et répondent à des questions reliées à la programmation, au développement web, aux systèmes d’exploitation, et autres sujets techniques. L’expertise est récompensée au moyen d’un système de réputation détaillé : les questions et les réponses peuvent recevoir des votes pour ou contre des autres membres de la communauté de sorte que leurs auteurs (demandeurs et répondeurs) acquièrent une réputation pour avoir posé de bonnes questions et avoir fourni des solutions utiles. À part cela, le demandeur peut marquer (accepter) l’une des réponses comme étant la meilleure à n’importe quel moment. Dans cet article, nous présentons une étude de la façon dont ce système de réputation peut être utilisé pour prédire la réponse susceptible d’être 'acceptée' (à partir d’une série de réponses) en ce qui concerne une question encore non résolue. Notre approche consiste à choisir un sous-ensemble de questions avec leurs réponses respectives, et pour chaque réponse, nous avons créé une paire question-réponse ('quan'). Nous avons ensuite extrait un ensemble de caractéristiques clés à partir de chaque quan, et avons appliqué des techniques supervisées d’apprentissage automatique pour entraîner un classificateur qui a appris, en fonction de ces caractéristiques, peu importe si la réponse acceptée pour cette question était contenue dans un quan. Enfin, nous avons utilisé le classificateur entraîné pour prédire si, selon un quan (relié à une question sans réponse marquée), sa réponse pouvait potentiellement être la réponse acceptée pour la question. Selon nos constatations, le modèle obtenu précédemment a prédit correctement la réponse possible pour chaque question avec une grande exactitude (88 pour cent du temps). Une question et sa réponse acceptée constituent une source de connaissances de qualité, car elle fournit la solution à un problème précis. Nous proposons d’adopter un forum de questions-réponses semblable pour Bullipedia, et d’appliquer ensuite un modèle de classification semblable pour cerner la meilleure réponse à des questions non résolues. Mots clés: Site de questions-réponses; Stack Overflow; apprentissage automatique; classification; Linéaire SVC; connaissance; communau
Sistemas de recomendación en el contexto gastronómico: elaboración y enriquecimiento de un dataset de recetas de cocina
El uso de sistemas de recomendación en Internet está teniendo una popularidad creciente y
son utilizados en diferentes tipos de aplicaciones de la Web. En el contexto de la
gastronomía, Internet ha contribuido a la diversidad en la cultura gastronómica de las
personas, permitiendo que existan diversos tipos de aplicaciones orientadas a la gastronomía,
como por ejemplo las redes sociales de cocina. Los sistemas de recomendación también han
aterrizado en el ámbito de la gastronomía, posibilitando la existencia de aplicaciones en la
Web que realizan sugerencias de platos de comida a los usuarios.
En este trabajo se realiza un proceso completo de minería de datos, que abarca desde la
adquisición de datos hasta la puesta en funcionamiento de modelos analíticos predictivos. El
trabajo comienza con una revisión del estado del arte en los sistemas de recomendación en
el contexto de la gastronomía, principalmente en la búsqueda de datos de recetas de comida
que sean totalmente públicos y que cumplan una serie de requerimientos determinados. Ante
la complejidad para encontrar este tipo de datos, se ha decidido realizar un proceso de
extracción de información, a partir de una fuente de datos de recetas de comida, escogida
como resultado de un análisis previo de las diferentes fuentes de datos que hay disponibles.
La extracción de datos constituye la parte central de este trabajo, para lo cual se ha
desarrollado un software automático que extrae los datos de manera incremental y
automática. Este programa ha permitido la obtención de los datos requeridos, coleccionando
un total de 362 usuarios, 12151 recetas y 495210 revisiones con rating asociado. El trabajo
restante abarca el desarrollo y evaluación de dos sistemas de recomendación, basados en
contenido, y utilizando los datos que se han obtenido previamente mediante el software de
extracción de datos.The use of recommender systems on the Internet is experiencing a growing popularity as
lots of applications across the Web are offering personalized content. In the context of
gastronomy, the Internet has contributed positively to the diversity of the gastronomic
culture around people, allowing the existence of many different gastronomy-oriented web
applications on the Internet, such as cooking-oriented social networks. Recommender
systems have also left a mark on gastronomy, since we can find on the Internet lots of
applications suggesting food recipes to Internet users.
In this work a complete data mining process is performed, starting from data acquisition and
ending with the testing of various predictive models. This work starts with the revision of
the state-of-the-art trends in gastronomy-oriented recommender systems, mainly focused on
the search of any available public dataset about cooking recipes, given a set of restrictions.
Given the difficulty at finding this kind of data, we have decided to develop a program to
extract that data from a previously analyzed data source that met a set of requirements. The
data extraction process is the main part of this work, and in order to get the required data we
have developed a software that obtains that data in an incremental and automatic manner,
using various scraping and crawling techniques. Through this program we have been able to
collect a set of 362 users, 12151 cooking recipes and 495210 revisions with associated rating.
The remaining part of this work is oriented to the development and evaluation of two
content-based recommender systems that use the data previously gathered by the data
extraction software developed
Social informatics
5th International Conference, SocInfo 2013, Kyoto, Japan, November 25-27, 2013, Proceedings</p