28 research outputs found
O que Ă© e como se constrĂłi um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguĂstica
As pesquisas baseadas em corpus tĂŞm tido na Ăşltima dĂ©cada um amplo desenvolvimento no contexto brasileiro. Nota-se a sua relevância e pertinĂŞncia nos domĂnios da LingĂĽĂstica, da LingĂĽĂstica Aplicada e da LingĂĽĂstica Computacional. Em vista disso, uma abordagem surge para sistematizar procedimentos e dar conta desse novo modo de fazer pesquisa. Essa abordagem Ă© a LingĂĽĂstica de Corpus que, auxiliada pelo desenvolvimento de ferramentas computacionais especĂficas para o tratamento do portuguĂŞs brasileiro, pode alcançar um grande desenvolvimento no Brasil. Entretanto, muito do que já se obteve de desenvolvimento em LingĂĽĂstica de Corpus no cenário internacional nĂŁo se reflete em muitas das pesquisas realizadas no Brasil, uma vez que as práticas mundialmente aceitas ainda nĂŁo estĂŁo aqui sedimentadas, a despeito de haver no paĂs eminentes pesquisadores que desenvolvem extraordinários projetos baseados em corpus. Assim, este artigo tem o propĂłsito de discorrer sobre a concepção de corpus, os requisitos e procedimentos para a sua elaboração, os corpora e ferramentas existentes e disponĂveis e, finalmente, apresentar quatro projetos envolvendo corpus cuja descrição e detalhamento pode auxiliar outros pesquisadores nessa tarefa. Palavras-chave: corpus; lingĂĽĂstica de corpus; processamento de corpus
O que Ă© e como se constrĂłi um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguĂstica
The research based on corpus has had in the last decade an ample development in the Brazilian context. Its relevancy is noticed in the Linguistics, Applied Linguistics and Computational Linguistics research areas. The approach of Corpus Linguistics comes out to systematize procedures and to give account of this new way to make research. The development of Brazilian Portuguese natural language processing tools can help Corpus Linguistics to reach a great development in Brazil. However, the advances in Corpus Linguistics in the international scenery have not happened yet in many of the research carried out in Brazil. The reasons for this is that the procedures and concepts world-wide accepted are not still settled here, in spite of having researchers developing extraordinary projects based on corpus in Brazil. Thus, this article has the intention to discuss several definitions of corpus, the requirements and procedures for its elaboration, the available corpora and tools and, finally, to present four projects involving corpus whose description and detailing can assist other researchers in the corpus building and processing. Key-words: corpus; corpus linguistics; corpus processing.As pesquisas baseadas em corpus tĂŞm tido na Ăşltima dĂ©cada um amplo desenvolvimento no contexto brasileiro. Nota-se a sua relevância e pertinĂŞncia nos domĂnios da LingĂĽĂstica, da LingĂĽĂstica Aplicada e da LingĂĽĂstica Computacional. Em vista disso, uma abordagem surge para sistematizar procedimentos e dar conta desse novo modo de fazer pesquisa. Essa abordagem Ă© a LingĂĽĂstica de Corpus que, auxiliada pelo desenvolvimento de ferramentas computacionais especĂficas para o tratamento do portuguĂŞs brasileiro, pode alcançar um grande desenvolvimento no Brasil. Entretanto, muito do que já se obteve de desenvolvimento em LingĂĽĂstica de Corpus no cenário internacional nĂŁo se reflete em muitas das pesquisas realizadas no Brasil, uma vez que as práticas mundialmente aceitas ainda nĂŁo estĂŁo aqui sedimentadas, a despeito de haver no paĂs eminentes pesquisadores que desenvolvem extraordinários projetos baseados em corpus. Assim, este artigo tem o propĂłsito de discorrer sobre a concepção de corpus, os requisitos e procedimentos para a sua elaboração, os corpora e ferramentas existentes e disponĂveis e, finalmente, apresentar quatro projetos envolvendo corpus cuja descrição e detalhamento pode auxiliar outros pesquisadores nessa tarefa. Palavras-chave: corpus; lingĂĽĂstica de corpus; processamento de corpus
Como incrementar a qualidade dos resultados das máquinas de busca: da análise de logs à interação em português
Com o intuito de avaliar a submissĂŁo de consultas em lĂngua natural, especificamente em portuguĂŞs, a máquinas de busca na Web, e contrastar com as consultas por palavras-chave, realizou-se um experimento com alunos, professores e funcionários de uma universidade brasileira. Particularmente, analisaram-se as consultas para verificar se os usuários expressavam bem seus objetivos em palavras-chave; como expressariam seus objetivos em lĂngua natural, caso esta possibilidade fosse oferecida; se as consultas em lĂngua natural forneciam informações que pudessem facilitar a recuperação de informação. O pedido de colaboração foi enviado a 440 pessoas de um instituto de computação da universidade. Foram obtidas 63 consultas, correspondentes a 42 objetivos. Observou-se que, para o item a, na maioria dos casos (71,43%), as consultas por meio de palavras-chave nĂŁo trazem todas as informações declaradas importantes no objetivo; para o item b as consultas foram feitas por meio de perguntas (71,87%), afirmações (18,75%) e ordens (9,37%); e, para o item c todas as perguntas diretas deixavam claro o objetivo da consulta já com a primeira palavra da frase, ou com as duas ou trĂŞs primeiras, com exceção das iniciadas pela palavra "qual"
MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection
We introduce MilkQA, a question answering dataset from the dairy domain
dedicated to the study of consumer questions. The dataset contains 2,657 pairs
of questions and answers, written in the Portuguese language and originally
collected by the Brazilian Agricultural Research Corporation (Embrapa). All
questions were motivated by real situations and written by thousands of authors
with very different backgrounds and levels of literacy, while answers were
elaborated by specialists from Embrapa's customer service. Our dataset was
filtered and anonymized by three human annotators. Consumer questions are a
challenging kind of question that is usually employed as a form of seeking
information. Although several question answering datasets are available, most
of such resources are not suitable for research on answer selection models for
consumer questions. We aim to fill this gap by making MilkQA publicly
available. We study the behavior of four answer selection models on MilkQA: two
baseline models and two convolutional neural network archictetures. Our results
show that MilkQA poses real challenges to computational models, particularly
due to linguistic characteristics of its questions and to their unusually
longer lengths. Only one of the experimented models gives reasonable results,
at the cost of high computational requirements.Comment: 6 page
Mortality from gastrointestinal congenital anomalies at 264 hospitals in 74 low-income, middle-income, and high-income countries: a multicentre, international, prospective cohort study
Summary
Background Congenital anomalies are the fifth leading cause of mortality in children younger than 5 years globally.
Many gastrointestinal congenital anomalies are fatal without timely access to neonatal surgical care, but few studies
have been done on these conditions in low-income and middle-income countries (LMICs). We compared outcomes of
the seven most common gastrointestinal congenital anomalies in low-income, middle-income, and high-income
countries globally, and identified factors associated with mortality.
Methods We did a multicentre, international prospective cohort study of patients younger than 16 years, presenting to
hospital for the first time with oesophageal atresia, congenital diaphragmatic hernia, intestinal atresia, gastroschisis,
exomphalos, anorectal malformation, and Hirschsprung’s disease. Recruitment was of consecutive patients for a
minimum of 1 month between October, 2018, and April, 2019. We collected data on patient demographics, clinical
status, interventions, and outcomes using the REDCap platform. Patients were followed up for 30 days after primary
intervention, or 30 days after admission if they did not receive an intervention. The primary outcome was all-cause,
in-hospital mortality for all conditions combined and each condition individually, stratified by country income status.
We did a complete case analysis.
Findings We included 3849 patients with 3975 study conditions (560 with oesophageal atresia, 448 with congenital
diaphragmatic hernia, 681 with intestinal atresia, 453 with gastroschisis, 325 with exomphalos, 991 with anorectal
malformation, and 517 with Hirschsprung’s disease) from 264 hospitals (89 in high-income countries, 166 in middleincome
countries, and nine in low-income countries) in 74 countries. Of the 3849 patients, 2231 (58·0%) were male.
Median gestational age at birth was 38 weeks (IQR 36–39) and median bodyweight at presentation was 2·8 kg (2·3–3·3).
Mortality among all patients was 37 (39·8%) of 93 in low-income countries, 583 (20·4%) of 2860 in middle-income
countries, and 50 (5·6%) of 896 in high-income countries (p<0·0001 between all country income groups).
Gastroschisis had the greatest difference in mortality between country income strata (nine [90·0%] of ten in lowincome
countries, 97 [31·9%] of 304 in middle-income countries, and two [1·4%] of 139 in high-income countries;
p≤0·0001 between all country income groups). Factors significantly associated with higher mortality for all patients
combined included country income status (low-income vs high-income countries, risk ratio 2·78 [95% CI 1·88–4·11],
p<0·0001; middle-income vs high-income countries, 2·11 [1·59–2·79], p<0·0001), sepsis at presentation (1·20
[1·04–1·40], p=0·016), higher American Society of Anesthesiologists (ASA) score at primary intervention
(ASA 4–5 vs ASA 1–2, 1·82 [1·40–2·35], p<0·0001; ASA 3 vs ASA 1–2, 1·58, [1·30–1·92], p<0·0001]), surgical safety
checklist not used (1·39 [1·02–1·90], p=0·035), and ventilation or parenteral nutrition unavailable when needed
(ventilation 1·96, [1·41–2·71], p=0·0001; parenteral nutrition 1·35, [1·05–1·74], p=0·018). Administration of
parenteral nutrition (0·61, [0·47–0·79], p=0·0002) and use of a peripherally inserted central catheter (0·65
[0·50–0·86], p=0·0024) or percutaneous central line (0·69 [0·48–1·00], p=0·049) were associated with lower mortality.
Interpretation Unacceptable differences in mortality exist for gastrointestinal congenital anomalies between lowincome,
middle-income, and high-income countries. Improving access to quality neonatal surgical care in LMICs will
be vital to achieve Sustainable Development Goal 3.2 of ending preventable deaths in neonates and children younger
than 5 years by 2030
Análise da Inteligibilidade de textos via ferramentas de Processamento de LĂngua Natural: adaptando as mĂ©tricas do Coh-Metrix para o PortuguĂŞs
Este artigo apresenta o projeto de adapta&ccedil;&atilde;o de m&eacute;tricas da ferramenta Coh-Metrix para o portugu&ecirc;s do Brasil (Coh-Metrix-Port). Descreve as ferramentas de processamento de l&iacute;ngua natural para o portugu&ecirc;s que foram utilizadas, juntamente com as decis&otilde;es tomadas para a cria&ccedil;&atilde;o da Coh-Metrix-Port. O artigo traz duas aplica&ccedil;&otilde;es da ferramenta Coh-Metrix-Port: (i) a avalia&ccedil;&atilde;o de textos jornal&iacute;sticos e sua vers&atilde;o para crian&ccedil;as, mostrando as diferen&ccedil;as entre os textos supostamente complexos e textos simples, isto &eacute;, os textos reescritos; (ii) a cria&ccedil;&atilde;o de classificadores bin&aacute;rios (com c&oacute;rpus de textos dedicados a adultos e crian&ccedil;as), analisando a influ&ecirc;ncia do g&ecirc;nero no desempenho destes classificadores (g&ecirc;neros jornal&iacute;stico e de divulga&ccedil;&atilde;o cient&iacute;fica) e de textos de outras fontes. A precis&atilde;o do melhor classificador treinado foi conseguida com a implementa&ccedil;&atilde;o de Support Vector Machines (SMO) do WEKA e foi de 97%. Como as m&eacute;tricas desta ferramenta ajudam a discriminar com boa precis&atilde;o textos dedicados a adultos e a crian&ccedil;as, acreditamos que elas possam tamb&eacute;m ajudar a avaliar se textos dispon&iacute;veis na Web s&atilde;o simples o suficiente para serem intelig&iacute;veis por analfabetos funcionais e pessoas com outras defici&ecirc;ncias cognitivas, como afasia e dislexia, e tamb&eacute;m para crian&ccedil;as e adultos em fase de letramento e assim permitir o acesso dos textos da Web para uma gama maior de usu&aacute;rios