6 research outputs found

    The Gene Wiki in 2011: community intelligence applied to human gene annotation

    Get PDF
    The Gene Wiki is an open-access and openly editable collection of Wikipedia articles about human genes. Initiated in 2008, it has grown to include articles about more than 10 000 genes that, collectively, contain more than 1.4 million words of gene-centric text with extensive citations back to the primary scientific literature. This growing body of useful, gene-centric content is the result of the work of thousands of individuals throughout the scientific community. Here, we describe recent improvements to the automated system that keeps the structured data presented on Gene Wiki articles in sync with the data from trusted primary databases. We also describe the expanding contents, editors and users of the Gene Wiki. Finally, we introduce a new automated system, called WikiTrust, which can effectively compute the quality of Wikipedia articles, including Gene Wiki articles, at the word level. All articles in the Gene Wiki can be freely accessed and edited at Wikipedia, and additional links and information can be found at the project's Wikipedia portal page: http://en.wikipedia.org/wiki/Portal:Gene_Wiki

    Examining Wikipedia across Linguistic and Temporal Borders

    Get PDF
    ABSTRACT The Web has grown to be an integral part of modern society offering novel ways for humans to communicate, interact, and share information. New collaborative platforms are forming which are providing individuals with new communities and knowledge bases and, at the same time, offering insights into human activity for researchers, policy-makers and engineers. On a global scale, the role of cultural and language barriers when studying such phenomena becomes particularly relevant and presents significant challenges: due to insufficient information, it is often hard to establish the cultural or language groups in which individuals belong, while there are technical difficulties in establishing the relevance and in analysing resources in different languages. This paper presents a framework to the end of addressing those issues by leveraging data on the use of Wikipedia. Resources available in different languages are explicitly correlated in Wikipedia along with time-stamped logs of access to its articles. This paper provides a framework to enable temporal page views in Wikipedia to be associated with specific geographic profiles. This framework is then used to examine the exchange of information between the English speaking and Chinese speaking localities and reports initial findings on the role of language and culture in diffusion in this context

    Analyzing the Wikisphere: Tools and Methods for Wiki Research

    Get PDF
    We present tools and techniques that facilitate wiki research and an analysis of wikis found on the internet. We developed WikiCrawler, a tool that downloads and analyzes wikis. With this tool, we built a corpus of 151 Mediawiki wikis. We also developed a wiki analysis toolkit in R, which, among other tasks, fits probability distributions to discrete data, and uses a Monte Carlo method to test the fit. From the corpus we determined that, like Wikipedia, most wikis were authored collaboratively, but users contributed at unequal rates. We proposed a distribution-based method for measuring wiki inequality and compared it to the Gini coefficient. We also analyzed distributions of edits across pages and users, producing data which can motivate or verify future mathematical models of behavior on wikis. Future research could also analyze user behavior and establish measurement baselines, facilitating evaluation, or generalize Wikipedia research by testing hypotheses across many wikis

    On combining collaborative and automated curation for enzyme function prediction

    Get PDF
    Grant number BB/F529038/1Data generation has vastly exceeded manual annotation in several areas of astronomy, biology, economy, geology, medicine and physics. At the same time, a public community of experts and hobbyists has developed around some of these disciplines thanks to open, editable web resources such as wikis and public annotation challenges. In this thesis I investigate under which conditions a combination of collaborative and automated curation could complete annotation tasks unattainable by human curators alone. My exemplar curation process is taken from the molecular biology domain: the association all existing enzymes (proteins catalysing a chemical reaction) with their function. Assigning enzymatic function to the proteins in a genome is the first essential problem of metabolic reconstruction, important for biology, medicine, industrial production and environmental studies. In the protein database UniProt, only 3% of the records are currently manually curated and only 60% of the 17 million recorded proteins have some functional annotation, including enzymatic annotation. The proteins in UniProt represent only about 380,000 animal species (2,000 of which have completely sequenced genomes) out of the estimated millions of species existing on earth. The enzyme annotation task already applies to millions of entries and this number is bound to increase rapidly as sequencing efforts intensify. To guide my analysis I first develop a basic model of collaborative curation and evaluate it against molecular biology knowledge bases. The analysis highlights a surprising similarity between open and closed annotation environments on metrics usually connected with “democracy” of content. I then develop and evaluate a method to enhance enzyme function annotation using machine learning which demonstrates very high accuracy, recall and precision and the capacity to scale to millions of enzyme instances. This method needs only a protein sequence as input and is thus widely applicable to genomic and metagenomic analysis. The last phase of the work uses active and guided learning to bring together collaborative and automatic curation. In active learning a machine learning algorithm suggests to the human curators which entry should be annotated next. This strategy has the potential to coordinate and reduce the amount of manual curation while improving classification performance and reducing the number of training instances needed. This work demonstrates the benefits of combining classic machine learning and guided learning to improve the quantity and quality of enzymatic knowledge and to bring us closer to the goal of annotating all existing enzymes

    Analyzing and Predicting Quality Flaws in User-generated Content: The Case of Wikipedia

    Get PDF
    Web applications that are based on user-generated content are often criticized for containing low-quality information; a popular example is the online encyclopedia Wikipedia. The major points of criticism pertain to the accuracy, neutrality, and reliability of information. The identification of low-quality information is an important task since for a huge number of people around the world it has become a habit to first visit Wikipedia in case of an information need. Existing research on quality assessment in Wikipedia either investigates only small samples of articles, or else deals with the classification of content into high-quality or low-quality. This thesis goes further, it targets the investigation of quality flaws, thus providing specific indications of the respects in which low-quality content needs improvement. The original contributions of this thesis, which relate to the fields of user-generated content analysis, data mining, and machine learning, can be summarized as follows: (1) We propose the investigation of quality flaws in Wikipedia based on user-defined cleanup tags. Cleanup tags are commonly used in the Wikipedia community to tag content that has some shortcomings. Our approach is based on the hypothesis that each cleanup tag defines a particular quality flaw. (2) We provide the first comprehensive breakdown of Wikipedia's quality flaw structure. We present a flaw organization schema, and we conduct an extensive exploratory data analysis which reveals (a) the flaws that actually exist, (b) the distribution of flaws in Wikipedia, and, (c) the extent of flawed content. (3) We present the first breakdown of Wikipedia's quality flaw evolution. We consider the entire history of the English Wikipedia from 2001 to 2012, which comprises more than 508 million page revisions, summing up to 7.9 TB. Our analysis reveals (a) how the incidence and the extent of flaws have evolved, and, (b) how the handling and the perception of flaws have changed over time. (4) We are the first who operationalize an algorithmic prediction of quality flaws in Wikipedia. We cast quality flaw prediction as a one-class classification problem, develop a tailored quality flaw model, and employ a dedicated one-class machine learning approach. A comprehensive evaluation based on human-labeled Wikipedia articles underlines the practical applicability of our approach

    Creación e implantación de un ambiente de enseñanza-aprendizaje basado en wikis para estudiantes de educación pre-media y media.

    Get PDF
    Cuando en 1989 Tim Berners-Lee, propuso la creación de la World Wide Web (WWW), imaginaba un gran espacio de información a través del cual las personas se comunicaran de forma que compartieran sus conocimientos. En los últimos años se ha visto un crecimiento notable en la aparición de herramientas que permiten a los usuarios, no solamente leer lo que se encuentra en la WWW sino, también escribir en ella. Los Wikis se presentan como herramienta colaborativa que facilita la creación y manejo de grandes repositorios de conocimiento y destacan por la flexibilidad que ofrecen. Consideramos que en el campo educativo, donde con diferentes estrategias se pretende integrar contenidos al contexto real en el cual se desenvuelven los estudiantes, .los Wikis pueden ser una alternativa tecnológica viable para dicha integración. El trabajo de investigación que aquí presentamos, comenzó con un estudio del estado de uso de Wikis en Educación, y a partir de allí decidimos incursionar e indagar sobre las posibilidades educativas que ofrecen los mismos. Basados en la propuesta de uso didáctico de los wikis, como apoyo al desarrollo de los Proyectos Pedagógicos de Aula, planteada en el trabajo de tesina doctoral (Rodríguez, 2008), desarrollamos la investigación que se describe a continuación. La investigación realizada fue una investigación descriptiva la cual se ha estructurado en cinco etapas. La primera etapa consistió en la revisión teórica de los temas relevantes para el uso colaborativo de los wikis en el aula. Estudiamos temas relacionados con construcción del conocimiento, como Constructivismo, Aprendizaje Significativo, Conectivismo y los Nuevos Aprendices, Aprendizaje Colaborativo, Aprendizaje colaborativo apoyado en tecnología y Teoría de cognición de grupos pequeños. Seguidamente revisamos temas como Herramientas de la Web 2.0 y su uso en educación, Entornos personales de aprendizaje (PLEs), wikis, su historia, su uso en educación y proyectos wikis para el aprendizaje colaborativo. En la segunda etapa definimos el marco metodológico en el cual basaríamos nuestro proyecto. Se definieron el tipo de investigación y las fases de la investigación. Las preguntas a las que buscábamos dar respuesta eran: 1. ¿Cómo será la disposición y actitud, de los jóvenes de escuela premedia y media del Instituto Cultural, hacia el uso de Wikis como herramienta de trabajo colaborativo? 2. ¿Serán capaces, los jóvenes de escuela premedia y media, de utilizar Wikis como herramienta de trabajo colaborativo? 3. ¿Cómo utilizarán, los jóvenes de escuela premedia y media del Instituto Cultural, los Wikis para el desarrollo de proyectos académicos, bajo el esquema de trabajo colaborativo? 4. ¿Serán capaces, los jóvenes de escuela premedia y media del Instituto Cultural, de desarrollar un trabajo colaborativo auto coordinado? 5. ¿Qué cambios, en cuanto a actitud y disposición de uso, se observarán en los estudiantes una vez finalizada la experiencia? 6. ¿Qué diferencias y/o similitudes habrá en cuanto a la disposición, actitud, capacidad de utilización y capacidad de trabajo colaborativo auto coordinado, de acuerdo a los diferentes niveles de los grupos de alumnos involucrados? Estas preguntas llevaron a plantear los siguientes objetivos para nuestro trabajo de investigación: 1. Conocer la actitud que el alumnado de premedia y media tiene hacia el aprendizaje utilizando Internet como medio para la formación. 2. Valorar el nivel de conocimiento de los estudiantes respecto al tema de wikis, antes y después de la experiencia. 3. Diseñar un wiki, como herramienta de apoyo, para el desarrollo colaborativo de proyectos académicos. 4. Validar el diseño del wiki como herramienta de trabajo colaborativo para estudiantes de premedia y media. 5. Validar la calidad de los wikis creados por los estudiantes en cuanto a proveer oportunidades para desarrollar “Habilidades del Siglo XXI” . 6. Analizar y describir los procesos seguidos por los alumnos involucrados, para el diseño del wiki como herramienta de apoyo a los proyectos académicos. 7. Valorar el nivel de satisfacción de los alumnos, respecto a la experiencia de diseñar y desarrollar en forma colaborativa un wiki de apoyo a su aprendizaje. Se seleccionaron y diagnosticaron los sujetos a participar en la experiencia Identificamos los materiales de apoyo que requeriríamos, basados en la población y el diagnóstico inicial. De allí se decidió desarrollar un taller de wikis y un manual de uso y normas del wiki. También en esta etapa se adaptaron, diseñaron y validaron los instrumentos a utilizar para el levantamiento de información, y las técnicas de análisis de los resultados que se obtuvieran. La tercera etapa consistió en el trabajo de los sujetos y su interacción con el wiki para desarrollar el proyecto por ellos propuesto. Esta etapa de trabajo fue auto-coordinada y el investigador sólo intervino para aclarar dudas y observar a los sujetos. Una vez finalizado el tiempo de interacción se procedió a aplicar los instrumentos de cierre de la experiencia. En la cuarta etapa se procedió al análisis de los resultados y la información obtenida con los instrumentos adaptados y desarrollados. El tipo de instrumento utilizado fue cuestionarios y listas de cotejo. Se utilizaron preguntas de tipo diferencial semántico, selección de adjetivos bipolares y preguntas abiertas. Se validó la calidad de los wikis desarrollados por los estudiantes, utilizando el Wiki Quality Instrument. Este instrumento es una herramienta de codificación para evaluar el grado en el cual los wikis proveen a los estudiantes oportunidades para desarrollar competencias como pensamiento experto, habilidades de comunicación y alfabetización en nuevos medios. En cuanto al análisis de resultados se realizó un análisis estadístico descriptivo básico, calculando frecuencias y porcentajes de los datos obtenidos. Este análisis estadístico se complementó con el análisis de contenido en aquellas preguntas de respuesta abierta. Para cerrar esta etapa se llevó a cabo la triangulación de los resultados. En la quinta y última etapa de nuestro trabajo de investigación procedimos a desarrollar las conclusiones y líneas de acción futuras. Entre las conclusiones más relevantes encontramos que para los estudiantes el utilizar el computador e internet para producir materiales de apoyo a su actividad escolar, es natural; lo consideran fácil, sencillo y valioso, y su actitud, en cuanto a la posibilidad de aprender utilizando la computadora e internet, es positiva y están dispuestos a hacerlo. Otra conclusión fue que los estudiantes estaban muy satisfechos con el wiki desarrollado, y se mostraron dispuestos a desarrollar proyectos colaborativos en el futuro. Con los resultados de este trabajo de investigación nos queda una reflexión respecto a que debe trabajarse con los sujetos que utilicen wikis, específicamente jóvenes con perfiles similares al de nuestra muestra, para crear la cultura de trabajo cooperativo en toda su extensión. Es necesario desarrollar en nuestros niños y jóvenes habilidades como la reflexión, interacción de grupo, lectura crítica y discusión, ya que estas son condiciones necesarias para el uso de los wikis, y el aprendizaje colaborativo
    corecore