64 research outputs found
Report on the Evaluation-as-a-Service (EaaS) Expert Workshop
In this report, we summarize the outcome of the "Evaluation-as-a-Service" workshop that was held on the 5th and 6th March 2015 in Sierre, Switzerland. The objective of the meeting was to bring together initiatives that use cloud infrastructures, virtual machines, APIs (Application Programming Interface) and related projects that provide evaluation of information retrieval or machine learning tools as a service
Recent trends in digital text forensics and its evaluation
The final publication is available at Springer via http://dx.doi.org/10.1007/978-3-642-40802-1_28This paper outlines the concepts and achievements of our evaluation lab on digital text forensics, PAN 13, which called for original research and development on plagiarism detection, author identification, and author profiling. We present a standardized evaluation framework for each of the three tasks and discuss the evaluation results of the altogether 58 submitted contributions. For the first time, instead of accepting the output of software runs, we collected the softwares themselves and run them on a computer cluster at our site. As evaluation and experimentation platform we use TIRA, which is being developed at the Webis Group in Weimar. TIRA can handle large-scale software submissions by means of virtualization, sandboxed execution, tailored unit testing, and staged submission. In addition to the achieved evaluation results, a major achievement of our lab is that we now have the largest collection of state-of-the-art approaches with regard to the mentioned tasks for further analysis at our disposal.This work was partially supported by the WIQ-EI IRSES project (Grant No. 269180) within the FP7 Marie Curie action.Gollub, T.; Potthast, M.; Beyer, A.; Busse, M.; Rangel Pardo, FM.; Rosso, P.; Stamatatos, E.... (2013). Recent trends in digital text forensics and its evaluation. En Information Access Evaluation. Multilinguality, Multimodality, and Visualization. Springer Verlag (Germany). 282-302. https://doi.org/10.1007/978-3-642-40802-1_28S282302Aleman, Y., Loya, N., Vilarino Ayala, D., Pinto, D.: Two Methodologies Applied to the Author Profiling Task—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Argamon, S., Juola, P.: Overview of the International Authorship Identification Competition at PAN-2011. In: Proc. of CLEF 2011 (2011)Argamon, S., Koppel, M., Fine, J., Shimoni, A.R.: Gender, Genre, and Writing Style in Formal Written Texts. TEXT 23, 321–346 (2003)Argamon, S., Koppel, M., Pennebaker, J.W., Schler, J.: Automatically Profiling the Author of an Anonymous Text. Commun. ACM 52(2), 119–123 (2009)Armstrong, T.G., Moffat, A., Webber, W., Zobel, J.: EvaluatIR: An Online Tool for Evaluating and Comparing IR Systems. In: Proc. of SIGIR 2009 (2009)Blockeel, H., Vanschoren, J.: Experiment Databases: Towards an Improved Experimental Methodology in Machine Learning. In: Kok, J.N., Koronacki, J., Lopez de Mantaras, R., Matwin, S., MladeniÄŤ, D., Skowron, A. (eds.) PKDD 2007. LNCS (LNAI), vol. 4702, pp. 6–17. Springer, Heidelberg (2007)Burger, J.D., Henderson, J., Kim, G., Zarrella, G.: Discriminating Gender on Twitter. In: Proc. EMNLP 2011 (2011)Clough, P., Stevenson, M.: Developing a Corpus of Plagiarised Short Answers. Lang. Resour. Eval. 45, 5–24 (2011)Clough, P., Gaizauskas, R., Piao, S.S.L., Wilks, Y.: METER: MEasuring TExt Reuse. In: Proc. ACL 2002 (2002)De Roure, D., Goble, C., Stevens, R.: The Design and Realisation of the myExperiment Virtual Research Environment for Social Sharing of Workflows. Future Gener. Comp. Sy. 25, 561–567 (2009)Caurcel Diaz, A.A., Gomez Hidalgo, J.M.: Experiments with SMS Translation and Stochastic Gradient Descent in Spanish Text Author Profiling—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Downie, J.S.: The Music Information Retrieval Evaluation Exchange (2005–2007): A Window into Music Information Retrieval Research. Acoust. Sc. and Tech. 29(4), 247–255 (2008)Hernandez Farias, D.I., Guzman-Cabrera, R., Reyes, A., Rocha, M.A.: Semantic-based Features for Author Profiling Identification: First Insights—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Flekova, L., Gurevych, I.: Can We Hide in the Web? Large Scale Simultaneous Age and Gender Author Profiling in Social Media–Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Forner, P., Navigli, R., Tufis, D. (eds.): CLEF 2013 Evaluation Labs and Workshop – Working Notes Papers (2013)Gillam, L.: Readability for author profiling?—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Gollub, T., Burrows, S., Stein, B.: First Experiences with TIRA for Reproducible Evaluation in Information Retrieval. In: Proc. of OSIR at SIGIR 2012 (August 2012)Gollub, T., Stein, B., Burrows, S.: Ousting Ivory Tower Research: Towards a Web Framework for Providing Experiments as a Service. In: Proc. of SIGIR 2012 (2012)Gollub, T., Stein, B., Burrows, S., Hoppe, D.: TIRA: Configuring, Executing, and Disseminating Information Retrieval Experiments. In: Proc. of TIR at DEXA 2012. IEEE (2012)Goswami, S., Sarkar, S., Rustagi, M.: Stylometric Analysis of Bloggers’ Age and Gender. In: Proc. of ICWSM 2009 (2009)Haggag, O., El-Beltagy, S.: Plagiarism Candidate Retrieval Using Selective Query Formulation and Discriminative Query Scoring—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Holmes, J., Meyerhoff, M.: The Handbook of Language and Gender. Blackwell Handbooks in Linguistics. Wiley (2003)Inches, G., Crestani, F.: Overview of the International Sexual Predator Identification Competition at PAN-2012. In: Proc. of CLEF 2012 (2012)Juola, P.: Authorship Attribution. Found. and Trends in IR 1, 234–334 (2008)Juola, P.: Ad-hoc Authorship Attribution Competition. In: Proc. of ALLC 2004 (2004)Juola, P.: An Overview of the Traditional Authorship Attribution Subtask. In: Proc. of CLEF 2012 (2012)Koppel, M., Winter, Y.: Determining if Two Documents are by the Same Author. Journal of the American Society for Information Science and Technology (to appear)Koppel, M., Argamon, S., Shimoni, A.R.: Automatically Categorizing Written Texts by Author Gender. Literary and Linguistic Computing 17(4), 401–412 (2002)Koppel, M., Schler, J., Bonchek-Dokow, E.: Measuring Differentiability: Unmasking Pseudonymous Authors. Journal of Machine Learning Research 8, 1261–1276 (2007)Koppel, M., Schler, J., Argamon, S.: Authorship Attribution in the Wild. Language Resources and Evaluation 45, 83–94 (2011)Kong, L., Qi, H., Du, C., Wang, M., Han, Z.: Approaches for Source Retrieval and Text Alignment of Plagiarism Detection—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Lim, W.Y., Goh, J., Thing, V.L.L.: Content-centric age and gender profiling—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Pastor Lopez-Monroy, A., Montes-Y-Gomez, M., Jair Escalante, H., Villasenor-Pineda, L., Villatoro-Tello, E.: INAOE’s participation at PAN’13: Author Profiling task—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Meina, M., Brodzinska, K., Celmer, B., Czokow, M., Patera, M., Pezacki, J., Wilk, M.: Ensemble-based Classification for Author Profiling using Various Features—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Nguyen, D., Gravel, R., Trieschnigg, D., Meder, T.: “How Old Do You Think I Am?”; A Study of Language and Age in Twitter. In: Proc. of ICWSM 2013 (2013)Nguyen, D., Smith, N.A., RosĂ©, C.P.: Author Age Prediction from Text Using Linear Regression. In: Proc. of LaTeCH at ACL-HLTGopal Patra, B., Banerjee, S., Das, D., Saikh, T., Bandyopadhyay, S.: Automatic Author Profiling Based on Linguistic and Stylistic Features—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Peersman, C., Daelemans, W., Van Vaerenbergh, L.: Predicting Age and Gender in Online Social Networks. In: Proc. of SMUC 2011 (2011)Pennebaker, J.W.: The Secret Life of Pronouns: What Our Words Say About Us. Bloomsbury, USA (2013)Pennebaker, J.W., Mehl, M.R., Niederhoffer, K.G.: Psychological Aspects of Natural Language Use: Our Words, Our Selves. Annual Review of Psychology 54(1), 547–577 (2003)Potthast, M., Stein, B., Eiselt, A., BarrĂłn-Cedeño, A., Rosso, P.: Overview of the 1st International Competition on Plagiarism Detection. In: Proc. of PAN at SEPLN 2009 (2009)Potthast, M., BarrĂłn-Cedeño, A., Eiselt, A., Stein, B., Rosso, P.: Overview of the 2nd International Competition on Plagiarism Detection. In: Proc. of CLEF 2010 (2010)Potthast, M., Stein, B., BarrĂłn-Cedeño, A., Rosso, P.: An Evaluation Framework for Plagiarism Detection. In: Proc. of COLING 2010 (2010)Potthast, M., Eiselt, A., BarrĂłn-Cedeño, A., Stein, B., Rosso, P.: Overview of the 3rd International Competition on Plagiarism Detection. In: Proc. of CLEF 2011 (2011)Potthast, M., Gollub, T., Hagen, M., GraĂźegger, J., Kiesel, J., Michel, M., Oberländer, A., Tippmann, M., BarrĂłn-Cedeño, A., Gupta, P., Rosso, P., Stein, B.: Overview of the 4th International Competition on Plagiarism Detection. In: Proc. of CLEF 2012 (2012)Potthast, M., Hagen, M., Stein, B., GraĂźegger, J., Michel, M., Tippmann, M., Welsch, C.: ChatNoir: A Search Engine for the ClueWeb09 Corpus. In: Proc. of SIGIR 2012 (2012)Potthast, M., Gollub, T., Hagen, M., Tippmann, M., Kiesel, J., Rosso, P., Stamatatos, E., Stein, B.: Overview of the 5th International Competition on Plagiarism Detection. In: Proc. of CLEF 2013 (2013)Potthast, M., Hagen, M., Völske, M., Stein, B.: Crowdsourcing Interaction Logs to Understand Text Reuse from the Web. In: Proc. of ACL 2013. ACM (to appear, August 2013b)RodĂguez TorrejĂłn, D.A., MartĂn Ramos, J.M.: Text Alignment Module in CoReMo 2.1 Plagiarism Detector—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Santosh, K., Bansal, R., Shekhar, M., Varma, V.: Author Profiling: Predicting Age and Gender from Blogs—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Schler, J., Koppel, M., Argamon, S., Pennebaker, J.W.: Effects of Age and Gender on Blogging. In: Proc. of CAAW 2006 (2006)Stamatatos, E.: A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology 60, 538–556 (2009)Stamatatos, E.: Plagiarism Detection Using Stopword N-grams. Journal of the American Society for Information Science and Technology 62(12), 2512–2527 (2011)Stein, B., Meyer zu EiĂźen, S., Potthast, M.: Strategies for Retrieving Plagiarized Documents. In: Proc. of SIGIR 2007 (2007)Suchomel, Ĺ ., Kasprzak, J., Brandejs, M.: Diverse Queries and Feature Type Selection for Plagiarism Discovery—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Williams, K., Chen, H., Chowdhury, S.R., Giles, C.L.: Unsupervised Ranking for Plagiarism Source Retrieval—Notebook for PAN at CLEF 2013. In: Forner, et al. (eds.) [15]Wojnarski, M., Stawicki, S., Wojnarowski, P.: TunedIT.org: System for Automated Evaluation of Algorithms in Repeatable Experiments. In: Szczuka, M., Kryszkiewicz, M., Ramanna, S., Jensen, R., Hu, Q. (eds.) RSCTC 2010. LNCS, vol. 6086, pp. 20–29. Springer, Heidelberg (2010)Zhang, C., Zhang, P.: Predicting Gender from Blog Posts. Technical report, University of Massachusetts Amherst, USA (2010
Evaluation-as-a-service for the computational sciences: overview and outlook
Evaluation in empirical computer science is essential to show progress and assess technologies developed. Several research domains such as information retrieval have long relied on systematic evaluation to measure progress: here, the Cranfield paradigm of creating shared test collections, defining search tasks, and collecting ground truth for these tasks has persisted up until now. In recent years, however, several new challenges have emerged that do not fit this paradigm very well: extremely large data sets, confidential data sets as found in the medical domain, and rapidly changing data sets as often encountered in industry. Crowdsourcing has also changed the way in which industry approaches problem-solving with companies now organizing challenges and handing out monetary awards to incentivize people to work on their challenges, particularly in the field of machine learning.
This article is based on discussions at a workshop on Evaluation-as-a-Service (EaaS). EaaS is the paradigm of not providing data sets to participants and have them work on the data locally, but keeping the data central and allowing access via Application Programming Interfaces (API), Virtual Machines (VM), or other possibilities to ship executables. The objectives of this article are to summarize and compare the current approaches and consolidate the experiences of these approaches to outline the next steps of EaaS, particularly toward sustainable research infrastructures.
The article summarizes several existing approaches to EaaS and analyzes their usage scenarios and also the advantages and disadvantages. The many factors influencing EaaS are summarized, and the environment in terms of motivations for the various stakeholders, from funding agencies to challenge organizers, researchers and participants, to industry interested in supplying real-world problems for which they require solutions.
EaaS solves many problems of the current research environment, where data sets are often not accessible to many researchers. Executables of published tools are equally often not available making the reproducibility of results impossible. EaaS, however, creates reusable/citable data sets as well as available executables. Many challenges remain, but such a framework for research can also foster more collaboration between researchers, potentially increasing the speed of obtaining research results
Experiences from the ImageCLEF Medical Retrieval and Annotation Tasks
The medical tasks in ImageCLEF have been run every year from 2004-2018 and many different tasks and data sets have been used over these years. The created resources are being used by many researchers well beyond the actual evaluation campaigns and are allowing to compare the performance of many techniques on the same grounds and in a reproducible way. Many of the larger data sets are from the medical literature, as such images are easier to obtain and to share than clinical data, which was used in a few smaller ImageCLEF challenges that are specifically marked with the disease type and anatomic region. This chapter describes the main results of the various tasks over the years, including data, participants, types of tasks evaluated and also the lessons learned in organizing such tasks for the scientific community
Report from Dagstuhl Seminar 23031: Frontiers of Information Access Experimentation for Research and Education
This report documents the program and the outcomes of Dagstuhl Seminar 23031
``Frontiers of Information Access Experimentation for Research and Education'',
which brought together 37 participants from 12 countries.
The seminar addressed technology-enhanced information access (information
retrieval, recommender systems, natural language processing) and specifically
focused on developing more responsible experimental practices leading to more
valid results, both for research as well as for scientific education.
The seminar brought together experts from various sub-fields of information
access, namely IR, RS, NLP, information science, and human-computer interaction
to create a joint understanding of the problems and challenges presented by
next generation information access systems, from both the research and the
experimentation point of views, to discuss existing solutions and impediments,
and to propose next steps to be pursued in the area in order to improve not
also our research methods and findings but also the education of the new
generation of researchers and developers.
The seminar featured a series of long and short talks delivered by
participants, who helped in setting a common ground and in letting emerge
topics of interest to be explored as the main output of the seminar. This led
to the definition of five groups which investigated challenges, opportunities,
and next steps in the following areas: reality check, i.e. conducting
real-world studies, human-machine-collaborative relevance judgment frameworks,
overcoming methodological challenges in information retrieval and recommender
systems through awareness and education, results-blind reviewing, and guidance
for authors.Comment: Dagstuhl Seminar 23031, report
Geographic information extraction from texts
A large volume of unstructured texts, containing valuable geographic information, is available online. This information – provided implicitly or explicitly – is useful not only for scientific studies (e.g., spatial humanities) but also for many practical applications (e.g., geographic information retrieval). Although large progress has been achieved in geographic information extraction from texts, there are still unsolved challenges and issues, ranging from methods, systems, and data, to applications and privacy. Therefore, this workshop will provide a timely opportunity to discuss the recent advances, new ideas, and concepts but also identify research gaps in geographic information extraction
Resting state fMRI experimental and analytical methodology: a functional connectivity analysis
Tese de mestrado integrado em Engenharia BiomĂ©dica e BiofĂsica , apresentada Ă Universidade de Lisboa, atravĂ©s da Faculdade de CiĂŞncias, 2013O ser humano desde sempre se sentiu fascinado pelo estudo do seu prĂłprio corpo assim como das suas propriedades funcionais. Do desejo de compreender e explorar o corpo humano surgiram entĂŁo tĂ©cnicas que permitem o seu estudo de modo nĂŁo invasivo. Entre as primeiras tĂ©cnicas de imagiologia encontram-se os Raios-X, a tomografia axial computadorizada (TAC) e a terapia por emissĂŁo de positrões (PET: do inglĂŞs “Positron Emission Therapy"). Contudo, todas elas utilizam radiação ionizante, e como tal surgiu o desejo de desenvolver novas metodologias igualmente nĂŁo invasivas mas que por seu lado nĂŁo utilizem qualquer tipo de radiação ionizante.
Entre estas técnicas encontra-se a imagiologia por ressonância magnética (MRI: do inglês “Magnetic Resonance Imaging”) que pode ser utilizada para estudar as estruturas anatómicas mas também os seus mecanismos funcionais através da aplicação da técnica de ressonância magnética funcional (fMRI: do inglês “functional magnetic resonance imaging).
Contrariamente Ă s tĂ©cnicas que utilizam radiação ionizante, a imagiologia por ressonância magnĂ©tica tira partido do facto de o ser humano ser maioritariamente constituĂdo por água. Um ser humano adulto Ă© por norma constituĂdo por cerca de 70 – 80% de água (H2O) o que se reflecte numa grande abundância de protões – nĂşcleo 1H. Quando submetidos a um forte campo magnĂ©tico, o momento magnĂ©tico destas partĂculas tende a alinhar-se de acordo com a direcção do campo magnĂ©tico externo (B0). ApĂłs alinhados os protões sĂŁo entĂŁo submetidos a um pulso de radiofrequĂŞncia (com frequĂŞncia igual Ă frequĂŞncia de Larmor destas partĂculas) que Ă© absorvido e modifica o momento magnĂ©tico (i.e. Spin) dos protões. Quando este pulso Ă© desligado, o spin dos protões retorna ao equilĂbrio termodinâmico, de acordo com a direcção do campo magnĂ©tico B0, emitindo energia sob a forma de radiofrequĂŞncia (RF). Estes mecanismos de relaxação diferem consoante o conteĂşdo em água dos tecidos e sĂŁo estes que permitem a identificação da sua estrutura. Gradientes de campo magnĂ©tico sĂŁo tamb Ă©m utilizados de modo a criar ligeiras diferenças no campo magnĂ©tico que permitem a codificação do sinal com informação espacial. A imagiologia por ressonância magnĂ©tica faz, nos dias de hoje, parte da rotina hospitalar providenciando imagens com grande precisĂŁo e resolução anatĂłmica.
Todavia a informação estrutural nem sempre Ă© suficiente para estudar patologias que nĂŁo exibem diferenças anatĂłmicas, tais como depressĂŁo ou esquizofrenia. Surge entĂŁo a ressonância magnĂ©tica funcional, que utiliza o nĂvel de oxigenação do sangue (BOLD: do inglĂŞs “Blood-oxygenation level dependent”) como uma medida indirecta de activação neuronal. AtravĂ©s da utilização desta tĂ©cnica Ă© entĂŁo possĂvel mapear zonas cerebrais responsáveis pelo processamento de sinais como por exemplo estĂmulos visuais, tácteis ou auditivos. A tĂtulo de exemplo, temos o estudo de doenças como o autismo ou atĂ© mesmo de distĂşrbios de consciĂŞncia. A nĂvel clĂnico a ressonância magnĂ©tica funcional Ă© utilizada para mapear funções crĂticas como por exemplo a fala, o movimento, o planeamento de tarefas, etc. Esta tĂ©cnica oferece aos profissionais de saĂşde a chance de desenvolver um melhor planeamento cirĂşrgico sendo que Ă© tambĂ©m aplicada no planeamento de tratamentos de radioterapia a nĂvel cerebral com o intuito de mapear funcionalmente o cĂ©rebro e detectar os efeitos que tumores, AVC e lesões cerebrais possam ter ao nĂvel da reestruturação das suas funções.
AtĂ© muito recentemente a grande maioria da informação disponĂvel acerca da conectividade anatĂłmica cerebral era estritamente proveniente de estudos efectuados em primatas, recorrendo ao uso de tĂ©cnicas extremamente invasivas (Felleman, Van Essen 1991, Jones, Powell 1970, Mesulam 2000, Ungerleider, Haxby 1994) assim como do estudo de lesões em casos humanos (ex: (Geschwind 1965)). Frinston (Friston et al. 1993) utilizando PET e Biswal (Biswal et al. 1995) atravĂ©s do uso de fMRI foram os primeiros a identificar que para alĂ©m das ligações anatĂłmicas entre diferentes estruturas cerebrais Ă© tambĂ©m possĂvel identificar ligações funcionais entre regiões que Ă primeira vista parecem nĂŁo ter qualquer tipo de ligação. Ă€ tĂ©cnica que usa MRI no estudo da conectividade funcional foi dado o nome de conectividade funcional de ressonância magnĂ©tica (fcMRI: do inglĂŞs “Functional connectivity MRI”). Esta utiliza ressonância magnĂ©tica funcional e as oscilações de baixa frequĂŞncia ao nĂvel do sinal BOLD em cada voxel para estabelecer correlações. Com base na ideia de que duas zonas se podem dizer funcionalmente relacionadas se estas se encontram a operar no mesmo processo, Ă© portanto possĂvel assumir que as variações no seu sinal BOLD serĂŁo bastante semelhantes exibindo uma alta correlação. A tĂtulo de exemplo vejamos duas regiões do cĂłrtex motor primário, localizadas em hemisfĂ©rios opostos, e que contudo apresentam sinais BOLD altamente correlacionados. Com esta ideia em mente foi entĂŁo desenvolvido o conceito de redes funcionais que sĂŁo usualmente estudadas durante perĂodos de repouso. Exactamente durante esta condição foi verificada a existĂŞncia de uma rede funcional extremamente consistente entre indivĂduos, e mesmo entre diferentes estados como durante o sono ou anestesia. A esta rede foi dado o nome de “Default-mode network” (Raichle et al. 2001) sendo que esta inclui regiões do cĂłrtex posterior cingulado, precuneus e do cĂłrtex prefrontal medial. A “defaultmode
network” Ă© a rede mais estudada, mas para alĂ©m desta existem outras redes tal como a rede visual, a auditiva, a de controle executivo, a de atenção, entre outras. Estas redes encontram-se frequentemente interrompidas ou modificadas em casos de doença. Os projectos descritos no âmbito desta dissertação focam-se no estudo destas redes bem como das suas propriedades em casos de doença (distĂşrbios de consciĂŞncia, AVC) e durante a performance de actividade fĂsica. A fim de estudar estas redes funcionais foram utilizados diferentes mĂ©todos para o cálculo da conectividade funcional. Entre os mais reconhecidos mĂ©todos de cálculo de conectividade funcional encontram-se a análise com base numa regiĂŁo de interesse, a análise atravĂ©s do estudo da independĂŞncia entre componentes bem como mĂ©todos que permitem o cálculo da conectividade cerebral a nĂvel global. Os mĂ©todos que utilizam uma regiĂŁo de interesse focam-se no cálculo da conectividade entre esta regiĂŁo e o resto do cĂ©rebro atravĂ©s do uso de medidas de correlação. O segundo mĂ©todo mencionado separa as várias redes neuronais com base na máximizacao da sua independĂŞncia estatĂstica. Por Ăşltimo, os mĂ©todos de análise global calculam a correlação das sĂ©rie temporal de cada voxel com todos os outros voxeis do cĂ©rebro. A contribuição da autora para os estudos descritos ao longo desta dissertacao focou-se no uso de duas destas tĂ©cnicas – “seed-based analysis” e “wGBC”- no cálculo da conectividade cerebral em cada um dos diferentes projectos.
No primeiro projecto, descrito no capĂtulo 3 desta dissertação, sĂŁo apresentadas vários paradigmas que em conjunto com o uso de ressonância magnĂ©tica funcional, foram desenhados para detectar consciĂŞncia e percepção em doentes que sofrem de distĂşrbios de consciĂŞncia. Estes paradigmas foram testados num grupo de voluntários saudáveis de modo a verificar se sĂŁo adequados ou se necessitam de ser optimizados. A autora foi entĂŁo responsável por executar uma análise individual e de grupo da activação induzida pela execução destes mesmos paradigmas. O desenvolvimento de paradigmas adequados a estes pacientes, combinadas com o uso de fMRI vem complementar e melhorar o diagnĂłstico e prognĂłstico destes doentes.
No capĂtulo 4 desta dissertação a autora focou-se na análise da conectividade funcional em pacientes que foram diagnosticados com um pequeno AVC, com enxaquecas e com TIAs. Este procedimento utilizou tĂ©cnicas de cálculo da conectividade com regiões de interesse e medidas globais de conectividade funcional. O objectivo deste estudo Ă© uma vez mais averiguar se a inclusĂŁo de uma sequĂŞncia de conectividade funcional poderá facilitar o diagnĂłstico destes doentes bem como o seu prognĂłstico.
No quinto capĂtulo a autora foca-se no estudo das diferenças induzidas ao nĂvel da conectividade funcional por uma Ăşnica sessĂŁo de exercĂcio fĂsico. SĂŁo uma vez mais utilizadas tĂ©cnicas de cálculo da conectividade com regiões de interesse bem como outros mĂ©todos implementados por outros investigadores do departamento.
É tambĂ©m incluĂdo nesta dissertação um capĂtulo no qual foram analisadas as propriedades destas redes neuronais ao nĂvel de uma população saudável. É importante que tanto as condições de aquisição dos dados de ressonância magnĂ©tica funcional como as metodologias de análise estejam bem estabelecidas para que os dados provenientes de diferentes estudos sejam comparáveis e para que possamos estabelecer de forma fiável conclusões acerca de populações saudáveis e doentes. O conceito de repouso Ă© ainda muito variável, particularmente quando Ă© apenas pedido aos participantes que permaneçam calmos e imĂłveis.
Certos estudos requerem que os participantes permaneçam de olhos fechados, outros de olhos abertos e outros ainda que fixem uma imagem projectada num ecrĂŁ. Uma grande variabilidade de estados podem ser originados com este design experimental, sendo que estes vĂŁo desde o simples devaneio em torno de um assunto, que por qualquer razĂŁo se encontra mais fortemente em mente, ou atĂ© mesmo o adormecer. Com o objecto de estudar estas variações, o capĂtulo 6 foca-se na investigação da conectividade cerebral resultante de duas diferentes situações bem como da sua variabilidade. Neste capĂtulo a autora procurou estudar a reprodutibilidade e confiança destas redes funcionais cerebrais quando Ă© pedido aos participantes que executem uma tarefa de baixo requerimento cognitivo. A análise foi executada atravĂ©s do cálculo da correlação entre sĂ©ries temporais bem como da sua análise estatĂstica, utilizando medidas como o coeficiente de correlação intra-classes, que fornece uma estimativa de reprodutibilidade entre diferentes medições.
Deste trabalho resultaram uma apresentação oral e a apresentação de um poster. Os resultados foram no geral positivos mas em alguns casos bastante ambĂguos. As mais recentes publicações evidenciam o interesse em estudar nĂŁo sĂł a distribuição espacial destas redes como tambĂ©m as suas propriedades temporais que se parecem evidenciar como extremamente dinâmicas. Como tal fica aqui aberto o caminho para a continuação da exploração das redes funcionais cerebrais bem como da sua variabilidade.
Numa nota final, consideramos importante salientar que o vasto estudo da conectividade cerebral assim como o dos seus mecanismos é ainda uma área de investigação com pouco mais de uma década e com um ainda longo caminho a percorrer.Conventional functional magnetic resonance imaging (fMRI) is used to measure small fluctuations in the blood oxygenation level dependent (BOLD) signal resulting from neural activation due to an external stimulus or task. Nonetheless, this imaging technique can also be applied to the study of functional connectivity in the human brain. Since it was first acknowledged that BOLD signal fluctuations also occur during resting periods that increased attention has been directed to the investigation of brain behaviour during this particular state. There is still an on-going debate as to whether these fluctuations actually reflect neuronal baseline activity or are just the result of physiological metabolism and therefore independent o neuronal function. Also, can this resting state activity be truly called a “baseline” for comparisons? Moreover, functional connectivity has identified several networks, of which the default mode network is the most robust. This network is believed to have a great importance in brain awareness and cognition. Further research is crucial to correctly understand these events and also to create a standardised methodology to perform the resting state fMRI acquisitions. The RESTATE (Resting State Techniques) project arises from the need to comprehend and correctly interpret the measured low frequency BOLD oscillations during resting periods. With this longitudinal study, comprising a baseline and a follow-up scan, we aim to assess the implications of using a low cognitive level paradigm upon the reproducibility of the data during functional connectivity analysis
Digital History and Hermeneutics
For doing history in the digital age, we need to investigate the “digital kitchen” as the place where the “raw” is transformed into the “cooked”. The novel field of digital hermeneutics provides a critical and reflexive frame for digital humanities research by acquiring digital literacy and skills. The Doctoral Training Unit "Digital History and Hermeneutics" is applying this new digital practice by reflecting on digital tools and methods
Biclustering electronic health records to unravel disease presentation patterns
Tese de mestrado, CiĂŞncia de Dados, Universidade de Lisboa, Faculdade de CiĂŞncias, 2019A Esclerose Lateral AmiotrĂłfica (ELA) Ă© uma doença neurodegenerativa heterogĂ©nea com padrões de apresentação altamente variáveis. Dada a natureza heterogĂ©nea dos doentes com ELA, aquando do diagnĂłstico os clĂnicos normalmente estimam a progressĂŁo da doença utilizando uma taxa de decaimento funcional, calculada com base na Escala Revista de Avaliação Funcional de ELA (ALSFRS-R). A utilização de modelos de Aprendizagem Automática que consigam lidar com este padrões complexos Ă© necessária para compreender a doença, melhorar os cuidados aos doentes e a sua sobrevivĂŞncia. Estes modelos devem ser explicáveis para que os clĂnicos possam tomar decisões informadas. Desta forma, o nosso objectivo Ă© descobrir padrões de apresentação da doença, para isso propondo uma nova abordagem de Prospecção de Dados: Descoberta de Meta-atributos Discriminativos (DMD), que utiliza uma combinação de Biclustering, Classificação baseada em Biclustering e Prospecção de Regras de Associação para Classificação. Estes padrões (chamados de Meta-atributos) sĂŁo compostos por subconjuntos de atributos discriminativos conjuntamente com os seus valores, permitindo assim distinguir e caracterizar subgrupos de doentes com padrões similares de apresentação da doença. Os Registos de SaĂşde ElectrĂłnicos (RSE) utilizados neste trabalho provĂŞm do conjunto de dados JPND ONWebDUALS (ONTology-based Web Database for Understanding Amyotrophic Lateral Sclerosis), composto por questões standardizadas acerca de factores de risco, mutações genĂ©ticas, atributos clĂnicos ou informação de sobrevivĂŞncia de uma coorte de doentes e controlos seguidos pelo consĂłrcio ENCALS (European Network to Cure ALS), que inclui vários paĂses europeus, incluindo Portugal. Nesta tese a metodologia proposta foi utilizada na parte portuguesa do conjunto de dados ONWebDUALS para encontrar padrões de apresentação da doença que: 1) distinguissem os doentes de ELA dos seus controlos e 2) caracterizassem grupos de doentes de ELA com diferentes taxas de progressĂŁo (categorizados em grupos Lentos, Neutros e Rápidos). Nenhum padrĂŁo coerente emergiu das experiĂŞncias efectuadas para a primeira tarefa. Contudo, para a segunda tarefa os padrões encontrados para cada um dos trĂŞs grupos de progressĂŁo foram reconhecidos e validados por clĂnicos especialistas em ELA, como sendo caracterĂsticas relevantes de doentes com progressĂŁo Lenta, Neutra e Rápida. Estes resultados sugerem que a nossa abordagem genĂ©rica baseada em Biclustering tem potencial para identificar padrões de apresentação noutros problemas ou doenças semelhantes.Amyotrophic Lateral Sclerosis (ALS) is a heterogeneous neurodegenerative disease with a high variability of presentation patterns. Given the heterogeneous nature of ALS patients and targeting a better prognosis, clinicians usually estimate disease progression at diagnosis using the rate of decay computed from the Revised ALS Functional Rating Scale (ALSFRS-R). In this context, the use of Machine Learning models able to unravel the complexity of disease presentation patterns is paramount for disease understanding, targeting improved patient care and longer survival times. Furthermore, explainable models are vital, since clinicians must be able to understand the reasoning behind a given model’s result before making a decision that can impact a patient’s life. Therefore we aim at unravelling disease presentation patterns by proposing a new Data Mining approach called Discriminative Meta-features Discovery (DMD), which uses a combination of Biclustering, Biclustering-based Classification and Class Association Rule Mining. These patterns (called Metafeatures) are composed of discriminative subsets of features together with their values, allowing to distinguish and characterize subgroups of patients with similar disease presentation patterns. The Electronic Health Record (EHR) data used in this work comes from the JPND ONWebDUALS (ONTology-based Web Database for Understanding Amyotrophic Lateral Sclerosis) dataset, comprised of standardized questionnaire answers regarding risk factors, genetic mutations, clinical features and survival information from a cohort of patients and controls from ENCALS (European Network to Cure ALS), a consortium of diverse European countries, including Portugal. In this work the proposed methodology was used on the ONWebDUALS Portuguese EHR data to find disease presentation patterns that: 1) distinguish the ALS patients from their controls and 2) characterize groups of ALS patients with different progression rates (categorized into Slow, Neutral and Fast groups). No clear pattern emerged from the experiments performed for the first task. However, in the second task the patterns found for each of the three progression groups were recognized and validated by ALS expert clinicians, as being relevant characteristics of slow, neutral and fast progressing patients. These results suggest that our generic Biclustering approach is a promising way to unravel disease presentation patterns and could be applied to similar problems and other diseases
- …