The Cloze test has been widely used for 70 years to assess proficiency in understanding texts in different languages, both L1 and L2. The basis of the test is the systematic gapping of a text, and hit scores are associated with the participant’s degree of comprehension of the task. In Brazil, the Cloze procedure has been productive like an instrument for reading measures in L1. Through it, it is possible to distinguish reader profiles- frustrated, instructional, and independent- by checking the participant’s performance when filling in the gaps. Almeida’s survey (2023) shows that this procedure was adopted in 75 of the 345 studies on reading assessment over the last 20 years. In the post-pandemic period, when reading asymmetries are even greater, the adoption of the exact word criterion does not allow an appropriate diagnosis: post-pandemic applications carried out at the Colégio de Aplicação of the Federal University of Sergipe- April 2023- showed that there are students who are concentrated at the level of insufficient comprehension (Machado, Santos & Cruz 2019; Santos & Machado 2022). It endorses the necessity of stimulating the application of consolidated resources, such as the Cloze test, that may assist education professionals in improving their practices and students’ reading levels. This article analyzes the papers published in three virtual databases that applied the traditional Cloze test to assess reading comprehension. The criteria for analyzing these answers are based on Taylor’s (1953) exact answers initial proposal (Brown 1980; 2013), added to other assessment instruments used in the Psychology field. Therefore, this article carries out a systematic review whose method considers empirical studies on reading assessment with the Cloze test, published from 2009 to 2022, and applied to Elementary School students. We found that most of the papers adopted the completion of the exact word as the measurement criterion (Joly & Istome 2008), likewise the computerized tests (Joly & Piovezan 2012; Brito, Ribeiro & Seabra 2022) instead of considering familiarity (Oliveira et al. 2007) or grammatical class (Abreu et al. 2017) of the word. We highlight the need to adopt natural language techniques, with measures of lexical distances, which can help diagnose how much comprehension there is in low reading scenarios. These distances can be found through the “minimum number of insertions, deletions or substitutions of a single character needed to transform one word into the other” (Petroni & Serva 2010). They will be measured by following the same grammatical class or semantic field as the expected word.O teste cloze tem sido amplamente utilizado há 70 anos para a avaliação de proficiência em compreensão de textos em diferentes línguas, tanto para L1 como para L2. A base do teste é o lacunamento sistemático de um texto, e os escores dos acertos são associados ao grau de compreensão do participante da tarefa. No Brasil, o procedimento cloze tem sido produtivo como uma das ferramentas de aferição da compreensão leitora em L1. Por ele, é possível distinguir perfis de leitores – frustrado, instrucional e independente – ao averiguar o desempenho dos participantes no preenchimento das lacunas. O levantamento de Almeida (2023) mostra que este procedimento foi adotado em 75 dos 345 estudos sobre avaliação de leitura nos últimos 20 anos. No pós-pandemia, em que as assimetrias de leitura estão ainda maiores, a adoção do critério de palavra exata não permite um diagnóstico apropriado: aplicações posteriores à pandemia realizadas no Colégio de Aplicação da Universidade Federal de Sergipe – abril de 2023 – mostraram que há alunos que se concentram no nível da insuficiência de compreensão (Machado, Santos, Cruz, 2019, Santos, Machado, 2022). Este artigo explora as medidas utilizadas para avaliar o preenchimento das lacunas tanto por meio de respostas exatas quanto por aquelas adequadas ao contexto, demonstrando a compreensão discente sobre o texto ao empregar palavras funcionais ou lexicais. Os critérios de análise dessas respostas baseiam-se na proposta inicial de Taylor (1953) – como resposta exata, resposta aceitável, múltipla escolha, clozetropia (Brown, 1980, 2013), porém sendo aqui consideradas as duas primeiras, com foco no cenário brasileiro. Destarte, este artigo realiza uma revisão sistemática cujo método considera estudos empíricos sobre avaliação de leitura com o teste cloze, utilizando como ferramenta de pesquisa a biblioteca virtual Portal de Periódicos Capes. Constatamos que a maior parte das pesquisas adota como critério de medida o preenchimento da palavra exata (Joly; Istome, 2008), e alguns poucos consideram familiaridade (Oliveira et al., 2007) ou classe gramatical (Abreu et al. 2017) da palavra. Apontamos a necessidade de adoção de técnicas de processamento de linguagem natural, com medidas de distâncias lexicais, que podem auxiliar no diagnóstico do quanto de compreensão existe em cenários de baixa leitura. Essas distâncias podem ser encontradas através de um “número mínimo de inserções, supressões ou substituições de um único carácter necessário para transformar uma palavra na outra” (Petroni; Serva, 2010). Elas serão mensuradas seguindo a mesma classe gramatical ou mesmo campo semântico da palavra esperada