12 research outputs found

    The Use of Social Media for Health Research Purposes: Scoping Review.

    Get PDF
    peer reviewed[en] BACKGROUND: As social media are increasingly used worldwide, more and more scientists are relying on them for their health-related projects. However, social media features, methodologies, and ethical issues are unclear so far because, to our knowledge, there has been no overview of this relatively young field of research. OBJECTIVE: This scoping review aimed to provide an evidence map of the different uses of social media for health research purposes, their fields of application, and their analysis methods. METHODS: We followed the scoping review methodologies developed by Arksey and O'Malley and the Joanna Briggs Institute. After developing search strategies based on keywords (eg, social media, health research), comprehensive searches were conducted in the PubMed/MEDLINE and Web of Science databases. We limited the search strategies to documents written in English and published between January 1, 2005, and April 9, 2020. After removing duplicates, articles were screened at the title and abstract level and at the full text level by two independent reviewers. One reviewer extracted data, which were descriptively analyzed to map the available evidence. RESULTS: After screening 1237 titles and abstracts and 407 full texts, 268 unique papers were included, dating from 2009 to 2020 with an average annual growth rate of 32.71% for the 2009-2019 period. Studies mainly came from the Americas (173/268, 64.6%, including 151 from the United States). Articles used machine learning or data mining techniques (60/268) to analyze the data, discussed opportunities and limitations of the use of social media for research (59/268), assessed the feasibility of recruitment strategies (45/268), or discussed ethical issues (16/268). Communicable (eg, influenza, 40/268) and then chronic (eg, cancer, 24/268) diseases were the two main areas of interest. CONCLUSIONS: Since their early days, social media have been recognized as resources with high potential for health research purposes, yet the field is still suffering from strong heterogeneity in the methodologies used, which prevents the research from being compared and generalized. For the field to be fully recognized as a valid, complementary approach to more traditional health research study designs, there is now a need for more guidance by types of applications of social media for health research, both from a methodological and an ethical perspective. INTERNATIONAL REGISTERED REPORT IDENTIFIER (IRRID): RR2-10.1136/bmjopen-2020-040671

    Global diabetes burden: analysis of regional differences to improve diabetes care.

    Get PDF
    peer reviewed[en] INTRODUCTION: The current evaluation processes of the burden of diabetes are incomplete and subject to bias. This study aimed to identify regional differences in the diabetes burden on a universal level from the perspective of people with diabetes. RESEARCH DESIGN AND METHODS: We developed a worldwide online diabetes observatory based on 34 million diabetes-related tweets from 172 countries covering 41 languages, spanning from 2017 to 2021. After translating all tweets to English, we used machine learning algorithms to remove institutional tweets and jokes, geolocate users, identify topics of interest and quantify associated sentiments and emotions across the seven World Bank regions. RESULTS: We identified four topics of interest for people with diabetes (PWD) in the Middle East and North Africa and another 18 topics in North America. Topics related to glycemic control and food are shared among six regions of the world. These topics were mainly associated with sadness (35% and 39% on average compared with levels of sadness in other topics). We also revealed several region-specific concerns (eg, insulin pricing in North America or the burden of daily diabetes management in Europe and Central Asia). CONCLUSIONS: The needs and concerns of PWD vary significantly worldwide, and the burden of diabetes is perceived differently. Our results will support better integration of these regional differences into diabetes programs to improve patient-centric diabetes research and care, focused on the most relevant concerns to enhance personalized medicine and self-management of PWD

    Développement de méthodes d’intelligence artificielle pour l’analyse de données de réseaux sociaux et à des fins de recherche médicale : cas d’utilisation sur une étude mondiale sur le diabète

    No full text
    Contexte : Le diabète et la détresse liée au diabète représentent un fardeau mondial et leur incidence est en constante augmentation. L'épidémiologie traditionnelle du diabète présente plusieurs lacunes qui pourraient être comblées avec certaines approches innovantes. En effet, cela peut prendre de nombreuses années entre l'identification et la conception d'une question de recherche, l'obtention de la validation des autorités et l'inclusion des participants aux résultats de la recherche. L'épidémiologie numérique offre ainsi une opportunité de récolter rapidement des données en croissance exponentielle dans l'espace numérique. Il s’agit d’une source de données qui n'est pas disponible dans un contexte traditionnel. En outre, les systèmes d'aide à la décision clinique basés sur l'IA ont le potentiel d'aider les professionnels de la santé à filtrer les informations essentielles dans la masse de données textuelles disponibles telles que les dossiers de santé électroniques, la littérature scientifique ou les réseaux sociaux. Objectifs:Les objectifs principaux de cette thèse étaient 1) l'exploration des réseaux sociaux, comme source de données complémentaire pour l'épidémiologie du diabète; 2) le développement et l'open-sourcing de méthodes innovantes d’intelligence artificielle pour extraire des informations; 3) et fournir un système d'aide à la décision clinique aidant les professionnels de la santé à analyser les données textuelles en constante augmentation. Résultats: Les principales préoccupations et sujets d'intérêt liés au diabète ont été identifiés, avec les émotions associées, mettant en lumière des sujets préoccupants sur l’accès aux soins, comme par exemple la frustration liée au prix de l'insuline aux États-Unis. Des associations “cause-effet” liées au diabète ont également été identifiées et visualisées dans un réseau interactif. Enfin, un système d'aide à la décision clinique interactif alimenté par une méthode d’intelligence artificielle a été développé pour améliorer l'exploration de la littérature dans le processus de prise de décision clinique, permettant une interprétabilité accrue tout en réduisant la consommation de mémoire. Conclusion: Ce travail a démontré que les données en ligne peuvent être utiles et complémentaires à celles de l'épidémiologie traditionnelle. Avec le cas d’usage du diabète, ce travail a également souligné l'importance des facteurs psychologiques et des émotions dans le quotidien et leur poids dans le fardeau de la maladie. Ce travail suggère une plus grande inclusion de ces dimensions dans les futures études épidémiologiques sur le diabète. Enfin, le besoin d'outils d’aide à la décision pour la pratique clinique pour synthétiser la littérature sur un sujet donné a été identifié et le prototype développé doit désormais être testé en situation réelle.Background: Diabetes and diabetes distress represent a global burden and their incidence is constantly rising. Traditional diabetes epidemiology has several gaps that could be filled with certain innovative approaches. Indeed, it can take many years to identify and design a research question, acquire ethical approval, include participants and finally obtain research results. Digital epidemiology offers an opportunity to quickly harvest exponentially growing data in the digital space, a data source that is not available in traditional settings. In addition, AI-powered clinical decision support systems have the potential to assist health professionals filter critical information from the mass of available textual data such as electronic health records, scientific literature or social media. Objectives: The main objectives of this thesis were 1) the exploration of social media as complementary data source for diabetes epidemiology; 2) the development and open-sourcing of innovative artificial intelligence methods to extract information; 3) and to provide a clinical decision support systems helping health professionals to analyze the constantly growing clinical text data. Results: Key diabetes related concerns and topics of interest were identified, along with associated emotions shared, highlighting areas of concern about access to care, such as the frustration concerning insulin prices in the US. Diabetes-related “cause- effect” associations have been identified and visualised in an interactive network. Lastly, an AI-powered interactive clinical decision support system has been developed to improve the literature exploration in the clinical decision making process enhancing interpretability while reducing memory consumption. Conclusions: This work demonstrated that online data can be useful and complementary to traditional epidemiology. Along with the example of diabetes, this work also highlighted the importance of psychological factors and emotions in everyday life and their weight in the burden of the disease. This work recommends a greater inclusion of these dimensions in future epidemiological studies on diabetes. Finally, the need for decision supporting tools for clinical practice to synthesize the literature on a given subject has been identified and the developed prototype must now be tested in a real scenario

    Développement de méthodes d’intelligence artificielle pour l’analyse de données de réseaux sociaux et à des fins de recherche médicale : cas d’utilisation sur une étude mondiale sur le diabète

    No full text
    Background: Diabetes and diabetes distress represent a global burden and their incidence is constantly rising. Traditional diabetes epidemiology has several gaps that could be filled with certain innovative approaches. Indeed, it can take many years to identify and design a research question, acquire ethical approval, include participants and finally obtain research results. Digital epidemiology offers an opportunity to quickly harvest exponentially growing data in the digital space, a data source that is not available in traditional settings. In addition, AI-powered clinical decision support systems have the potential to assist health professionals filter critical information from the mass of available textual data such as electronic health records, scientific literature or social media. Objectives: The main objectives of this thesis were 1) the exploration of social media as complementary data source for diabetes epidemiology; 2) the development and open-sourcing of innovative artificial intelligence methods to extract information; 3) and to provide a clinical decision support systems helping health professionals to analyze the constantly growing clinical text data. Results: Key diabetes related concerns and topics of interest were identified, along with associated emotions shared, highlighting areas of concern about access to care, such as the frustration concerning insulin prices in the US. Diabetes-related “cause- effect” associations have been identified and visualised in an interactive network. Lastly, an AI-powered interactive clinical decision support system has been developed to improve the literature exploration in the clinical decision making process enhancing interpretability while reducing memory consumption. Conclusions: This work demonstrated that online data can be useful and complementary to traditional epidemiology. Along with the example of diabetes, this work also highlighted the importance of psychological factors and emotions in everyday life and their weight in the burden of the disease. This work recommends a greater inclusion of these dimensions in future epidemiological studies on diabetes. Finally, the need for decision supporting tools for clinical practice to synthesize the literature on a given subject has been identified and the developed prototype must now be tested in a real scenario.Contexte : Le diabète et la détresse liée au diabète représentent un fardeau mondial et leur incidence est en constante augmentation. L'épidémiologie traditionnelle du diabète présente plusieurs lacunes qui pourraient être comblées avec certaines approches innovantes. En effet, cela peut prendre de nombreuses années entre l'identification et la conception d'une question de recherche, l'obtention de la validation des autorités et l'inclusion des participants aux résultats de la recherche. L'épidémiologie numérique offre ainsi une opportunité de récolter rapidement des données en croissance exponentielle dans l'espace numérique. Il s’agit d’une source de données qui n'est pas disponible dans un contexte traditionnel. En outre, les systèmes d'aide à la décision clinique basés sur l'IA ont le potentiel d'aider les professionnels de la santé à filtrer les informations essentielles dans la masse de données textuelles disponibles telles que les dossiers de santé électroniques, la littérature scientifique ou les réseaux sociaux. Objectifs:Les objectifs principaux de cette thèse étaient 1) l'exploration des réseaux sociaux, comme source de données complémentaire pour l'épidémiologie du diabète; 2) le développement et l'open-sourcing de méthodes innovantes d’intelligence artificielle pour extraire des informations; 3) et fournir un système d'aide à la décision clinique aidant les professionnels de la santé à analyser les données textuelles en constante augmentation. Résultats: Les principales préoccupations et sujets d'intérêt liés au diabète ont été identifiés, avec les émotions associées, mettant en lumière des sujets préoccupants sur l’accès aux soins, comme par exemple la frustration liée au prix de l'insuline aux États-Unis. Des associations “cause-effet” liées au diabète ont également été identifiées et visualisées dans un réseau interactif. Enfin, un système d'aide à la décision clinique interactif alimenté par une méthode d’intelligence artificielle a été développé pour améliorer l'exploration de la littérature dans le processus de prise de décision clinique, permettant une interprétabilité accrue tout en réduisant la consommation de mémoire. Conclusion: Ce travail a démontré que les données en ligne peuvent être utiles et complémentaires à celles de l'épidémiologie traditionnelle. Avec le cas d’usage du diabète, ce travail a également souligné l'importance des facteurs psychologiques et des émotions dans le quotidien et leur poids dans le fardeau de la maladie. Ce travail suggère une plus grande inclusion de ces dimensions dans les futures études épidémiologiques sur le diabète. Enfin, le besoin d'outils d’aide à la décision pour la pratique clinique pour synthétiser la littérature sur un sujet donné a été identifié et le prototype développé doit désormais être testé en situation réelle

    Développement de méthodes d’intelligence artificielle pour l’analyse de données de réseaux sociaux et à des fins de recherche médicale : cas d’utilisation sur une étude mondiale sur le diabète

    No full text
    Background: Diabetes and diabetes distress represent a global burden and their incidence is constantly rising. Traditional diabetes epidemiology has several gaps that could be filled with certain innovative approaches. Indeed, it can take many years to identify and design a research question, acquire ethical approval, include participants and finally obtain research results. Digital epidemiology offers an opportunity to quickly harvest exponentially growing data in the digital space, a data source that is not available in traditional settings. In addition, AI-powered clinical decision support systems have the potential to assist health professionals filter critical information from the mass of available textual data such as electronic health records, scientific literature or social media. Objectives: The main objectives of this thesis were 1) the exploration of social media as complementary data source for diabetes epidemiology; 2) the development and open-sourcing of innovative artificial intelligence methods to extract information; 3) and to provide a clinical decision support systems helping health professionals to analyze the constantly growing clinical text data. Results: Key diabetes related concerns and topics of interest were identified, along with associated emotions shared, highlighting areas of concern about access to care, such as the frustration concerning insulin prices in the US. Diabetes-related “cause- effect” associations have been identified and visualised in an interactive network. Lastly, an AI-powered interactive clinical decision support system has been developed to improve the literature exploration in the clinical decision making process enhancing interpretability while reducing memory consumption. Conclusions: This work demonstrated that online data can be useful and complementary to traditional epidemiology. Along with the example of diabetes, this work also highlighted the importance of psychological factors and emotions in everyday life and their weight in the burden of the disease. This work recommends a greater inclusion of these dimensions in future epidemiological studies on diabetes. Finally, the need for decision supporting tools for clinical practice to synthesize the literature on a given subject has been identified and the developed prototype must now be tested in a real scenario.Contexte : Le diabète et la détresse liée au diabète représentent un fardeau mondial et leur incidence est en constante augmentation. L'épidémiologie traditionnelle du diabète présente plusieurs lacunes qui pourraient être comblées avec certaines approches innovantes. En effet, cela peut prendre de nombreuses années entre l'identification et la conception d'une question de recherche, l'obtention de la validation des autorités et l'inclusion des participants aux résultats de la recherche. L'épidémiologie numérique offre ainsi une opportunité de récolter rapidement des données en croissance exponentielle dans l'espace numérique. Il s’agit d’une source de données qui n'est pas disponible dans un contexte traditionnel. En outre, les systèmes d'aide à la décision clinique basés sur l'IA ont le potentiel d'aider les professionnels de la santé à filtrer les informations essentielles dans la masse de données textuelles disponibles telles que les dossiers de santé électroniques, la littérature scientifique ou les réseaux sociaux. Objectifs:Les objectifs principaux de cette thèse étaient 1) l'exploration des réseaux sociaux, comme source de données complémentaire pour l'épidémiologie du diabète; 2) le développement et l'open-sourcing de méthodes innovantes d’intelligence artificielle pour extraire des informations; 3) et fournir un système d'aide à la décision clinique aidant les professionnels de la santé à analyser les données textuelles en constante augmentation. Résultats: Les principales préoccupations et sujets d'intérêt liés au diabète ont été identifiés, avec les émotions associées, mettant en lumière des sujets préoccupants sur l’accès aux soins, comme par exemple la frustration liée au prix de l'insuline aux États-Unis. Des associations “cause-effet” liées au diabète ont également été identifiées et visualisées dans un réseau interactif. Enfin, un système d'aide à la décision clinique interactif alimenté par une méthode d’intelligence artificielle a été développé pour améliorer l'exploration de la littérature dans le processus de prise de décision clinique, permettant une interprétabilité accrue tout en réduisant la consommation de mémoire. Conclusion: Ce travail a démontré que les données en ligne peuvent être utiles et complémentaires à celles de l'épidémiologie traditionnelle. Avec le cas d’usage du diabète, ce travail a également souligné l'importance des facteurs psychologiques et des émotions dans le quotidien et leur poids dans le fardeau de la maladie. Ce travail suggère une plus grande inclusion de ces dimensions dans les futures études épidémiologiques sur le diabète. Enfin, le besoin d'outils d’aide à la décision pour la pratique clinique pour synthétiser la littérature sur un sujet donné a été identifié et le prototype développé doit désormais être testé en situation réelle

    Développement de méthodes d’intelligence artificielle pour l’analyse de données de réseaux sociaux et à des fins de recherche médicale : cas d’utilisation sur une étude mondiale sur le diabète

    No full text
    Background: Diabetes and diabetes distress represent a global burden and their incidence is constantly rising. Traditional diabetes epidemiology has several gaps that could be filled with certain innovative approaches. Indeed, it can take many years to identify and design a research question, acquire ethical approval, include participants and finally obtain research results. Digital epidemiology offers an opportunity to quickly harvest exponentially growing data in the digital space, a data source that is not available in traditional settings. In addition, AI-powered clinical decision support systems have the potential to assist health professionals filter critical information from the mass of available textual data such as electronic health records, scientific literature or social media. Objectives: The main objectives of this thesis were 1) the exploration of social media as complementary data source for diabetes epidemiology; 2) the development and open-sourcing of innovative artificial intelligence methods to extract information; 3) and to provide a clinical decision support systems helping health professionals to analyze the constantly growing clinical text data. Results: Key diabetes related concerns and topics of interest were identified, along with associated emotions shared, highlighting areas of concern about access to care, such as the frustration concerning insulin prices in the US. Diabetes-related “cause- effect” associations have been identified and visualised in an interactive network. Lastly, an AI-powered interactive clinical decision support system has been developed to improve the literature exploration in the clinical decision making process enhancing interpretability while reducing memory consumption. Conclusions: This work demonstrated that online data can be useful and complementary to traditional epidemiology. Along with the example of diabetes, this work also highlighted the importance of psychological factors and emotions in everyday life and their weight in the burden of the disease. This work recommends a greater inclusion of these dimensions in future epidemiological studies on diabetes. Finally, the need for decision supporting tools for clinical practice to synthesize the literature on a given subject has been identified and the developed prototype must now be tested in a real scenario.Contexte : Le diabète et la détresse liée au diabète représentent un fardeau mondial et leur incidence est en constante augmentation. L'épidémiologie traditionnelle du diabète présente plusieurs lacunes qui pourraient être comblées avec certaines approches innovantes. En effet, cela peut prendre de nombreuses années entre l'identification et la conception d'une question de recherche, l'obtention de la validation des autorités et l'inclusion des participants aux résultats de la recherche. L'épidémiologie numérique offre ainsi une opportunité de récolter rapidement des données en croissance exponentielle dans l'espace numérique. Il s’agit d’une source de données qui n'est pas disponible dans un contexte traditionnel. En outre, les systèmes d'aide à la décision clinique basés sur l'IA ont le potentiel d'aider les professionnels de la santé à filtrer les informations essentielles dans la masse de données textuelles disponibles telles que les dossiers de santé électroniques, la littérature scientifique ou les réseaux sociaux. Objectifs:Les objectifs principaux de cette thèse étaient 1) l'exploration des réseaux sociaux, comme source de données complémentaire pour l'épidémiologie du diabète; 2) le développement et l'open-sourcing de méthodes innovantes d’intelligence artificielle pour extraire des informations; 3) et fournir un système d'aide à la décision clinique aidant les professionnels de la santé à analyser les données textuelles en constante augmentation. Résultats: Les principales préoccupations et sujets d'intérêt liés au diabète ont été identifiés, avec les émotions associées, mettant en lumière des sujets préoccupants sur l’accès aux soins, comme par exemple la frustration liée au prix de l'insuline aux États-Unis. Des associations “cause-effet” liées au diabète ont également été identifiées et visualisées dans un réseau interactif. Enfin, un système d'aide à la décision clinique interactif alimenté par une méthode d’intelligence artificielle a été développé pour améliorer l'exploration de la littérature dans le processus de prise de décision clinique, permettant une interprétabilité accrue tout en réduisant la consommation de mémoire. Conclusion: Ce travail a démontré que les données en ligne peuvent être utiles et complémentaires à celles de l'épidémiologie traditionnelle. Avec le cas d’usage du diabète, ce travail a également souligné l'importance des facteurs psychologiques et des émotions dans le quotidien et leur poids dans le fardeau de la maladie. Ce travail suggère une plus grande inclusion de ces dimensions dans les futures études épidémiologiques sur le diabète. Enfin, le besoin d'outils d’aide à la décision pour la pratique clinique pour synthétiser la littérature sur un sujet donné a été identifié et le prototype développé doit désormais être testé en situation réelle

    Improving Diabetes-Related Biomedical Literature Exploration in the Clinical Decision-making Process via Interactive Classification and Topic Discovery: Methodology Development Study

    No full text
    International audienceBackground: The amount of available textual health data such as scientific and biomedical literature is constantly growing and becoming more and more challenging for health professionals to properly summarize those data and practice evidence-based clinical decision making. Moreover, the exploration of unstructured health text data is challenging for professionals without computer science knowledge due to limited time, resources, and skills. Current tools to explore text data lack ease of use, require high computational efforts, and incorporate domain knowledge and focus on topics of interest with difficulty.Objective: We developed a methodology able to explore and target topics of interest via an interactive user interface for health professionals with limited computer science knowledge. We aim to reach near state-of-the-art performance while reducing memory consumption, increasing scalability, and minimizing user interaction effort to improve the clinical decision-making process. The performance was evaluated on diabetes-related abstracts from PubMed.Methods: The methodology consists of 4 parts: (1) a novel interpretable hierarchical clustering of documents where each node is defined by headwords (words that best represent the documents in the node), (2) an efficient classification system to target topics, (3) minimized user interaction effort through active learning, and (4) a visual user interface. We evaluated our approach on 50,911 diabetes-related abstracts providing a hierarchical Medical Subject Headings (MeSH) structure, a unique identifier for a topic. Hierarchical clustering performance was compared against the implementation in the machine learning library scikit-learn. On a subset of 2000 randomly chosen diabetes abstracts, our active learning strategy was compared against 3 other strategies: random selection of training instances, uncertainty sampling that chooses instances about which the model is most uncertain, and an expected gradient length strategy based on convolutional neural networks (CNNs).Results: For the hierarchical clustering performance, we achieved an F1 score of 0.73 compared to 0.76 achieved by scikit-learn. Concerning active learning performance, after 200 chosen training samples based on these strategies, the weighted F1 score of all MeSH codes resulted in a satisfying 0.62 F1 score using our approach, 0.61 using the uncertainty strategy, 0.63 using the CNN, and 0.45 using the random strategy. Moreover, our methodology showed a constant low memory use with increased number of documents.Conclusions: We proposed an easy-to-use tool for health professionals with limited computer science knowledge who combine their domain knowledge with topic exploration and target specific topics of interest while improving transparency. Furthermore, our approach is memory efficient and highly parallelizable, making it interesting for large Big Data sets. This approach can be used by health professionals to gain deep insights into biomedical literature to ultimately improve the evidence-based clinical decision making process

    Scoping review protocol on the use of social media for health research purposes

    No full text
    Introduction More than one-third of the world population uses at least one form of social media. Since their advent in 2005, health-oriented research based on social media data has largely increased as discussions about health issues are broadly shared online and generate a large amount of health-related data. The objective of this scoping review is to provide an evidence map of the various uses of social media for health research purposes, their fields of applications and their analysis methods.Methods and analysis This scoping review will follow the Arksey and O’Malley methodological framework (2005) as well as the Joanna Briggs Institute Reviewer’s manual. Relevant publications will be first searched on the PudMed/MEDLINE database and then on Web of Science. We will focus on literature published between January 2005 and April 2020. All articles related to the use of social media or networks for health-oriented research purposes will be included. A first search will be conducted with some keywords in order to identify relevant articles. After identifying the research strategy, a two-part study selection process will be systematically applied by two reviewers. The first part consists of screening titles and abstracts found, thanks to the search strategy, to define the eligibility of each article. In the second part, the full texts will be screened and only relevant articles will be kept. Data will finally be extracted, collated and charted to summarise all the relevant methods, outcomes and key findings in the articles.Ethics and dissemination This scoping review will provide an extensive overview of the use of social media for health research purposes. Opportunities as well as future ethical, methodological and technical challenges will also be discussed based on our findings to define a new research agenda. Results will be disseminated through a peer-reviewed publication

    Extraction of Explicit and Implicit Cause-Effect Relationships in Patient-Reported Diabetes-Related Tweets From 2017 to 2021: Deep Learning Approach

    No full text
    Background Intervening in and preventing diabetes distress requires an understanding of its causes and, in particular, from a patient’s perspective. Social media data provide direct access to how patients see and understand their disease and consequently show the causes of diabetes distress. Objective Leveraging machine learning methods, we aim to extract both explicit and implicit cause-effect relationships in patient-reported diabetes-related tweets and provide a methodology to better understand the opinions, feelings, and observations shared within the diabetes online community from a causality perspective. Methods More than 30 million diabetes-related tweets in English were collected between April 2017 and January 2021. Deep learning and natural language processing methods were applied to focus on tweets with personal and emotional content. A cause-effect tweet data set was manually labeled and used to train (1) a fine-tuned BERTweet model to detect causal sentences containing a causal relation and (2) a conditional random field model with Bidirectional Encoder Representations from Transformers (BERT)-based features to extract possible cause-effect associations. Causes and effects were clustered in a semisupervised approach and visualized in an interactive cause-effect network. Results Causal sentences were detected with a recall of 68% in an imbalanced data set. A conditional random field model with BERT-based features outperformed a fine-tuned BERT model for cause-effect detection with a macro recall of 68%. This led to 96,676 sentences with cause-effect relationships. “Diabetes” was identified as the central cluster followed by “death” and “insulin.” Insulin pricing–related causes were frequently associated with death. Conclusions A novel methodology was developed to detect causal sentences and identify both explicit and implicit, single and multiword cause, and the corresponding effect, as expressed in diabetes-related tweets leveraging BERT-based architectures and visualized as cause-effect network. Extracting causal associations in real life, patient-reported outcomes in social media data provide a useful complementary source of information in diabetes research
    corecore