2,623 research outputs found

    The Product and System Specificities of Measuring Curation Impact

    Get PDF
    Using three datasets archived at the National Center for Atmospheric Research (NCAR), we describe the creation of a ‘data usage index’ for curation-specific impact assessments. Our work is focused on quantitatively evaluating climate and weather data used in earth and space science research, but we also discuss the application of this approach to other research data contexts. We conclude with some proposed future directions for metric-based work in data curation

    The Product and System Specificities of Measuring Curation Impact

    Full text link

    Tracking citations and altmetrics for research data: Challenges and opportunities

    Get PDF
    Methods for determining research quality have long been debated but with little lasting agreement on standards, leading to the emergence of alternative metrics. Altmetrics are a useful supplement to traditional citation metrics, reflecting a variety of measurement points that give different perspectives on how a dataset is used and by whom. A positive development is the integration of a number of research datasets into the ISI Data Citation Index, making datasets searchable and linking them to published articles. Yet access to data resources and tracking the resulting altmetrics depend on specific qualities of the datasets and the systems where they are archived. Though research on altmetrics use is growing, the lack of standardization across datasets and system architecture undermines its generalizability. Without some standards, stakeholders' adoption of altmetrics will be limited

    Panel Discussion presentation: Value-based Indicators for Reuse & Their Implications for Data Curation

    Get PDF
    Nic Weber, MLS, is a PhD student and Research Assistant, Center for Informatics Research in Science and Scholarship, University of Illinois at Urbana-Champaign. Overview: I. The Data Practice Working group - What we talk about when we talk about Value II. Some research findings - Qualitative Case : The Data Conservancy - Quantitative Case: NCAR’s Research Data Archiv

    APPLICATION OF MACHINE LEARNING APPROACHES TO EMPOWER DRUG DEVELOPMENT

    Get PDF
    Human health, one of the major topics in Life Science, is facing intensified challenges, including cancer, pandemic outbreaks, and antimicrobial resistance. Thus, new medicines with unique advantages, including peptide-based vaccines and permeable small molecule antimicrobials, are in urgent need. However, the drug development process is long, complex, and risky with no guarantee of success. Also, the improvements in techniques applied in genomics, proteomics, computational biology, and clinical trials significantly increase the data complexity and volume, which imposes higher requirements on the drug development pipeline. In recent years, machine learning (ML) methods were employed to support drug development in various aspects and were shown to be highly effective. Here, we explored the application of advanced ML approaches to empower the development of peptide-based vaccines and permeable antimicrobials. First, the peptide-based vaccines targeting pancreatic cancer and COVID-19 were predicted and screened via multiple approaches. Next, novel structure-based methods to improve the performance of peptide: MHC binding affinity prediction were developed, including an HLA modeling pipeline that provides structures for docking-based peptide binder validation, and hierarchical clustering of HLA I into supertypes and subtypes that have similar peptide binding specificity. Finally, the physicochemical properties governing the permeability of small molecules into multidrug-resistant Pseudomonas aeruginosa cells were selected using a random forest model. In conclusion, the use of machine learning methods could accelerate the drug development process at a lower cost and promote data-based decision-making if used properly

    Contribuições para melhoria das condições de sustentabilidade em empresas beneficiadoras de gemas

    Get PDF
    A cadeia produtiva de gemas e joias tem sido uma importante fonte de divisas e de geração de empregos em diversas regiões do Brasil. No entanto, por vezes, suas atividades não têm sido desenvolvidas em um contexto ambientalmente correto e sustentável. Nesse sentido, este trabalho busca investigar indicadores, com a finalidade de propor um quadro de indicadores para avaliar e monitorar as condições de sustentabilidade das empresas beneficiadoras de gemas. Para tanto, foi elaborada uma proposta considerando as especificidades do setor, contendo 10 indicadores e 24 variáveis distribuídos nas dimensões ambiental, econômica, social e tecnológica. A proposta foi verificada empiricamente junto a uma empresa: um estudo de caso, localizada em Teutônia/RS, que apresenta as principais características das empresas pertencentes ao setor. A utilização do quadro de indicadores forneceu informações sobre as condições de sustentabilidade da empresa, identificando aspectos positivos e também os que necessitam ser melhorados para auxiliar na busca de uma gestão mais sustentável das atividades. Por outro lado, os resultados alcançados apresentam informações que podem servir de referência para fins de comparação com outras empresas do setor, assim como auxiliar no processo de tomada de decisão em busca de condições mais sustentáveis.The gemstones and jewels production chain have been an important source of income and job creation in several regions of Brazil. However, sometimes, its activities haven’t been developed in an environmentally correct and sustainable context. In this sense, this work seeks to investigate indicators, to propose a framework of indicators to evaluate and monitor the sustainability conditions of companies that process gemstones. Therefore, a proposal was prepared considering the specificities of the sector, containing 10 indicators and 24 variables distributed in the environmental, economic, social, and technological dimensions. The proposal was verified empirically with a company, a case study, located in Teutônia/RS, which presents the main characteristics of the companies belonging to the sector. The use of the framework of indicators provided information on the company’s sustainability conditions, identifying positive aspects and also those that need to be improved to assist in the search for a more sustainable management of activities. On the other hand, the results achieved present information that can serve as a reference for comparison with other companies in the sector, as well as assist in the decisionmaking process in search of more sustainable conditions

    A methodological approach on the creation of trustful test suites for grammar error detection

    Get PDF
    Machine translation’s research has been expanding over time and so has the need to automatically detect and correct errors in texts. As such, Unbabel combines machine translation with human editors in post-edition to provide high quality translations. In order to assist post-editors in these tasks, a proprietary error detection tool called Smartcheck was developed by Unbabel to identify errors and suggest corrections. The state-of-the-art method of identifying translation errors depends on curated annotated texts (associated with error-type categories), which are fed to machine translation systems as their evaluation standard, i.e. the test suites to evaluate a system’s error detection accuracy. It is commonly assumed that evaluation sets are reliable and representative of the content the systems translate, leading to the assumption that the root problem usually relates to grammar-checking rules. However, the issue may instead lie in the quality of the evaluation set. If so, then the decisions made upon evaluation will possibly even have the opposite effect to the one intended. Thus, it is of utmost importance to have suitable datasets with representative data of the structures needed for each system, the same for Smartcheck. With this in mind, this dissertation developed and implemented a new methodology on creating reliable and revised test suites to be applied on the evaluation process of MT systems and error detection tools. Using the resulting curated test suites to evaluate proprietary systems and tools to Unbabel, it became possible to trust the conclusions and decisions made from said evaluations. This methodology accomplished robust identification of problematic error types, grammar-checking rules, and language- and/or register-specific issues, therefore allowing production measures to be adopted. With Smartcheck’s (now reliable and accurate) correction suggestions and the improvement on post-edition revision, the work presented hereafter led to an improvement on the translation quality provided to customers.O presente trabalho focou-se na avaliação do desempenho de uma ferramenta proprietária da Unbabel, para detecção automática de erros, baseada em segmentos previamente anotados pela comunidade de anotadores, o Smartcheck. Assim, foi proposta uma metodologia para criação de um corpus de teste (do inglês test suites) baseado em dados de referência com estruturas relevantes (do inglês gold data). Deste modo, tornou-se possível melhorar a qualidade das sugestões de correção de erros do Smartcheck e, consequentemente, das traduções facultadas. Para além do objetivo inicial, a nova metodologia permitiu assegurar uma avaliação rigorosa, apropriada e fundamentada relativamente às regras usadas pelo Smartcheck, para identificar possíveis erros de tradução, assim como avaliar outras ferramentas e sistemas de tradução automática da Unbabel. Recentemente, assistiu-se também a uma fusão da Lingo24 com a Unbabel e, por essa razão, os dados presentes no corpus incluem conteúdo traduzido por ambas. Como tal, o trabalho desenvolvido contribuiu inclusivamente para a recente integração da Lingo24. A Secção 2 foi dedicada à apresentação da Unbabel, na qual se referem os processos de controlo de qualidade utilizados para assegurar níveis de qualidade exigidos e se descreve pormenorizadamente a ferramenta em foco, o Smartcheck. A Secção 3 focou-se no estado da arte da Tradução Automática e em processos de controlo de qualidade, dando especial atenção a corpora de teste e à influência dos mesmos. Além disso, foi também incluída uma descrição relativa ao desenvolvimento de ferramentas automáticas de deteção e correção de erros, criadas para aperfeiçoar os textos provenientes de traduções automáticas. A metodologia criada, descrita na Secção 4, foi dividida em três partes principais: avaliação piloto relativa às regras preexistentes do Smartcheck; análise de causas de erros (do inglês root-cause analysis); e, por fim, construção de um novo corpus de teste, com dados mais recentes e corrigidos. O primeiro passo na metodologia consistiu na avaliação do desempenho da ferramenta em foco na presente tese. Para tal, foi realizada uma análise piloto na qual cada regra utilizada pelo Smartcheck foi avaliada de acordo com métricas comumente aplicadas para avaliação de sistemas de deteção de erros, como o número de verdadeiros positivos (true positives) - casos em que o sistema conseguiu corretamente identificar erros -, de falsos negativos (false negatives) - casos em que existia um erro, mas o sistema não o identificou - e de falsos positivos (false positives) - casos em que o sistema incorretamente considerou existir erros. Outras métricas utilizadas para avaliação consistiram no cálculo de Precision, Recall, e F1-score, a partir dos valores obtidos das métricas anteriormente mencionadas. Tendo terminado a avaliação piloto, concluiu-se que nem todas as regras foram passíveis de avaliação (razão pela qual se tornou impossível averiguar o desempenho individual para cada regra) e, quanto às que foram avaliadas, os resultados não foram considerados satisfatórios. Isto porque, as regras não identificavam erros existentes nas traduções e consideravam como problemáticos inúmeros segmentos gramaticalmente corretos. A segunda etapa da metodologia surgiu, então, como tentativa de identificar possíveis razões pelas quais o Smartcheck e as regras associadas demonstraram um baixo desempenho. Em vista desse objetivo, foi feita uma análise na qual foi colocada a hipótese de que as regras teriam sido avaliadas com um corpus de teste não apropriado e obsoleto, explicando assim as métricas muito baixas da avaliação piloto. Esta hipótese surgiu uma vez que foi não só considerada a possibilidade de os dados do corpus não serem representativos das traduções feitas atualmente, mas também pelo facto de as estruturas consideradas problemáticas para os sistemas de tradução serem alteradas constantemente. De modo a corroborar a hipótese colocada, o corpus foi analisado com base em variados critérios: qual o tipo de tradução dos dados - se os segmentos analisados tinham ou não sido previamente revisto por pós-editores antes da respetiva submissão; existência de segmentos duplicados ou cujo texto de partida (do inglês source text) poderia conter erros - i.e. dados ruidosos; e revisão das anotações e das severidades associadas a cada erro, de acordo com tipologias e diretrizes específicas da Unbabel - considerando o número de anotações/severidades correta e incorretamente atribuídas, assim como em falta. Uma vez finalizada a análise, concluímos que cerca de 20% dos dados correspondiam a duplicações - tanto para o registo formal como para o informal -, que entre 15-25% das anotações foram consideradas incorretas e que apenas metade das severidades foram corretamente atribuídas. Assim sendo, considerámos que seria mais vantajoso criar um novo corpus representativo e refinado, ao invés de corrigir todas as anotações incorretas do corpus previamente usado. O terceiro e último passo da metodologia consistiu na construção de um novo corpus de teste com 27 500 exemplos previamente anotados de traduções automáticas. Os procedimentos para a criação deste novo corpus incluíram: filtragem de um conjunto de traduções automáticas, com dados representativos para todas as línguas suportadas pela Unbabel; distinção entre segmentos dependentes e não dependentes de contexto (uma limitação do corpus prévio); exclusão de exemplos duplicados e de casos com textos de partida problemáticos; e, por fim, revisão por parte de linguistas e tradutores das anotações atribuídas, seguindo tipologias proprietárias. Este último procedimento foi ainda subdividido em: uma avaliação geral, de modo a garantir que as traduções transmitiam de forma coerente, fluída e apropriada a mensagem do texto de partida e que, para além disso, seguiam regras específicas para cada língua; uma avaliação focada em especificidades por cliente, de modo a assegurar diretrizes existentes; e uma revisão de severidades associadas a cada anotação. Tendo sido a metodologia dada como terminada, o corpus de teste consistia agora num conjunto de dados de confiança, capaz de avaliar sistemas de tradução automática e ferramentas como o Smartcheck de uma forma objetiva e fundamentada. Posto isto, as várias avaliações realizadas - descritas na Secção 5 - usaram os dados compreendidos no corpus como termo de comparação. A primeira avaliação teve como objetivo principal comparar os resultados obtidos na análise piloto quanto às regras do Smartcheck com os resultados de uma nova avaliação das mesmas usando o novo corpus de teste, de forma a chegar a conclusões mais fiáveis e credíveis. A partir desta, foi possível concluir não só que, contrariamente às conclusões anteriores, todas as regras são agora passíveis de avaliação, mas também que o número de casos em que o Smartcheck incorretamente identificava segmentos como problemáticos foi reduzido. A avaliação seguinte comparou anotações recorrendo a uma matriz de confusão (do inglês confusion matrix) entre previsões concedidas tanto pelo Smartcheck como pelo corpus de teste. Deste modo, foi possível identificar quais os tipos de erros mais frequentes e quais os tipos mais (e menos) problemáticos de identificar pelo sistema. Assim, o corpus de teste foi considerado como gold standard de modo a realizar uma avaliação global do Smartcheck, calculando o número total de falsos positivos (atingindo cerca de 45%), falsos negativos (com 35%) e verdadeiros positivos (aproximadamente 20%). Quanto aos verdadeiros positivos, estes foram divididos em dois tipos: segmentos corretamente identificados pelo Smartcheck como erro, mas que foram classificados incorretamente (cerca de 11%); e erros em que tanto a extensão como a classificação foram atribuídas corretamente (a rondar os 8% do número total de anotações). A terceira e última análise recorreu aos totais obtidos na avaliação anterior para calcular valores para métricas como Precision, Recall e F1-score para cada língua e para cada registo suportado. Desta forma, foi possível concluir que, quanto à primeira métrica, a média entre registos estava bastante equilibrada, mas o mesmo não se verificou em Recall nem F1-score, uma vez que o registo formal atingiu valores superiores. Para além disso, recorremos ainda ao corpus para avaliar spell checkers usados pela Unbabel e, analisando os resultados obtidos, pudemos concluir que o spell checker em uso obteve a avaliação mais baixa. Tendo isto em conta, foi decidido que seria então preferível substituí-lo pelo spell checker com a melhor avaliação, de modo a reduzir o número de erros nas traduções e assim melhorar a qualidade das mesmas. Todo o trabalho realizado pôde ser implementado em vários outros campos para além do inicialmente estabelecido, i.e. para além da avaliação sistemática da ferramenta Smartcheck. Demonstrando, deste modo, todo o impacto que uma análise bem fundamentada pode ter no processo de tomada de decisão. Isto porque, sem um corpus de teste representativo e estruturado, as avaliações feitas não seriam válidas e os resultados obtidos facilmente levariam a conclusões impróprias ou até nocivas para o desenvolvimento dos sistemas e ferramentas em questão

    Impact in networks and ecosystems: building case studies that make a difference

    Get PDF
    open accessThis toolkit aims to support the building up of case studies that show the impact of project activities aiming to promote innovation and entrepreneurship. The case studies respond to the challenge of understanding what kinds of interventions work in the Southern African region, where, and why. The toolkit has a specific focus on entrepreneurial ecosystems and proposes a method of mapping out the actors and their relationships over time. The aim is to understand the changes that take place in the ecosystems. These changes are seen to be indicators of impact as increased connectivity and activity in ecosystems are key enablers of innovation. Innovations usually happen together with matching social and institutional adjustments, facilitating the translation of inventions into new or improved products and services. Similarly, the processes supporting entrepreneurship are guided by policies implemented in the common framework provided by innovation systems. Overall, policies related to systems of innovation are by nature networking policies applied throughout the socioeconomic framework of society to pool scarce resources and make various sectors work in coordination with each other. Most participating SAIS countries already have some kinds of identifiable systems of innovation in place both on national and regional levels, but the lack of appropriate institutions, policies, financial instruments, human resources, and support systems, together with underdeveloped markets, create inefficiencies and gaps in systemic cooperation and collaboration. In other words, we do not always know what works and what does not. On another level, engaging users and intermediaries at the local level and driving the development of local innovation ecosystems within which local culture, especially in urban settings, has evident impact on how collaboration and competition is both seen and done. In this complex environment, organisations supporting entrepreneurship and innovation often find it difficult to create or apply relevant knowledge and appropriate networking tools, approaches, and methods needed to put their processes to work for broader developmental goals. To further enable these organisations’ work, it is necessary to understand what works and why in a given environment. Enhanced local and regional cooperation promoted by SAIS Innovation Fund projects can generate new data on this little-explored area in Southern Africa. Data-driven knowledge on entrepreneurship and innovation support best practices as well as effective and efficient management of entrepreneurial ecosystems can support replication and inform policymaking, leading thus to a wider impact than just that of the immediate reported projects and initiatives

    Lipases as cake batter improvers compared to a traditional emulsifier

    Get PDF
    Lipases can act on the baking quality of cakes as clean-label improvers. Only little is known about their possible effects on the batter quality of cakes. Especially the importance of the cake formulation has not been studied before. We therefore aim to analyse the effects of seven baking lipases on three different cake formulations (an eggless basic cake, a pound cake and a yeast-based cake) in comparison to the emulsifier DATEM (mono- and diacetyl tartaric acid esters of mono- and diglycerides of fatty acids). The impact on batter density, stickiness and rheological properties was examined. Both the lipase and the cake formulation had an influence on the extent of batter improvement. The greatest lipase-induced effects occurred in the eggless cake, probably because no intrinsic emulsifiers were present. Lipase reactions seemed to be inhibited in the yeast-based cake. For basic cake and pound cake, three lipases decreased batter density (up to 3.7%) and stickiness (up to 42.7%) and caused a liquefaction of the batter. This leads to an eased machinability of lipase-treated batters for cake manufacturing and opens up many possibilities for application of lipases in cakes and other fine bakery goods
    corecore