1 research outputs found

    Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE

    Get PDF
    As ferramentas de processamento da linguagem natural são cada vez mais usadas na automatização de processos no contexto de aquisição de segunda língua e no tratamento de dados de falantes não-nativos. Um dos principais passos intermédios na construção destas ferramentas de processamento automático de dados de falantes não-nativos é a análise sintática automática, realizada por parsers. No entanto, a maioria dos parsers assume que o texto a ser analisado respeita a norma, uma vez que estes foram treinados e avaliados com esse tipo de texto. Por conseguinte, o seu uso em textos de aprendentes de uma L2 poderá afetar o seu desempenho e originar resultados menos fiáveis. O conhecimento das limitações específicas do parser ao lidar com este tipo de texto pode ser muito vantajoso e influenciar a forma como usamos estes sistemas. É com vista a contribuir para uma melhor compreensão deste aspeto que se desenvolveu este projeto. Neste âmbito, foi feita uma avaliação do desempenho de dois parsers de dependências baseados em paradigmas diferentes – baseado em regras vs. baseado em estatística. Foi selecionado um corpus de aprendentes de Português L2/LE com o objetivo de identificar os tipos de erro de aprendentes que mais frequentemente alteram a análise produzida pelos parsers. A análise dos resultados permitiu, entre outras coisas, verificar que os erros com maior impacto nos outputs produzidos são os mesmos em ambos os parsers. No entanto, também se verificaram diferenças significativas entre as análises produzidas pelos sistemas de diferentes paradigmas, principalmente ao nível de padrões de alteração dos outputs dos sistemas perante a presença/ausência de certos tipos de erro. Este trabalho contribuiu, assim, para elucidar os desafios que os parsers poderão enfrentar quando lhes são apresentados textos produzidos por aprendentes, abrindo portas para o desenvolvimento futuro de ferramentas dedicadas ao tratamento deste tipo de texto, tais como sistemas de deteção automática de erros e de identificação automática de proficiência.Natural language processing tools have been increasingly used to automatize processes in the context of second language acquisition and to process non-native speaker data. Automatic syntactic analysis, performed by parsers, is an important intermediate step in the development of these tools. However, most parsers assume that the text to be analyzed is canonical since they have been trained and evaluated with that type of text. Therefore, using these systems on texts written by language learners may affect their performance and lead to less reliable results. This project aims to contribute to a better understanding of the specific limitations of the parser when dealing with this type of text. Learning more about this can influence the way we use these systems. With this in mind, we evaluated the performance of two dependency parsers based on different paradigms – rule-based vs. statistic-based. A corpus of Portuguese L2/FL learner sentences was compiled in order to identify which types of errors produced by learners most frequently modify the parser output. The analysis of the results allowed us to verify that the errors with the most considerable impact on the output produced are the same in both parsers. Nevertheless, there were significant differences between the outputs of the parsers based on different paradigms, especially regarding mismatch patterns of the outputs depending on the presence/absence of certain types of errors. The results of this study contribute to elucidate the challenges parsers face when presented with texts produced by learners, opening the door for the future development of tools better suited to handle this type of text, such as automated error detection systems and automatic classification of learner proficiency systems
    corecore