SADIO Sociedad Argentina de Informática e Investigación Operativa
Abstract
Para realizar inferencia y generación de textos con grandes modelos de lenguaje entrenados con bases de datos que contienen sentencias judiciales y documentos legales es fundamental garantizar la confidencialidad de los datos personales y la protección de información sensible. En este trabajo, proponemos una metodología para la anonimización de bases de datos legales basada en la extracción de entidades mediante modelos de lenguaje avanzados. Se utilizaron dos modelos de lenguaje de c´odigo abierto, LLaMA 3.1 (8B) y Qwen 2.5 (7B). Cada modelo de lenguaje es entrenado en dos etapas, primero un preentrenamiento continuo en el cual se adapta el modelo al lenguaje jurídico, mejorando su capacidad de comprensión y generación de textos en este dominio especializado. Para esto se utilizó un corpus de más de 26.000 documentos legales y se evalúa la efectividad del preentrenamiento a través de métricas como BLEU, BERTScore y perplejidad. En una segunda etapa se realiza un finetuning específico para la tarea de anonimización y extracción de entidades. Dicho finetuning se evaluó en un conjunto de 50 segmentos de prueba, obteniendo un 92,79% de anonimización correcta con Qwen 2.5 (7B) y 91,58% con LLaMA 3.1 (8B), mejorando en un 4,73% y un 12,87% con respecto al modelo base con finetuning, respectivamente, destacando el impacto del continued pretraining como paso previo. Ambos entrenamientos, tanto el continued pretraining como el finetuning, fueron realizados mediante LoRA.To perform inference and text generation with large language models trained on datasets containing court rulings and legal documents, it is essential to ensure the confidentiality of personal data and the protection of sensitive information. In this work, we propose a methodology for the anonymization of legal databases based on entity extraction using advanced language models. Two open-source language models, LLaMA 3.1 (8B) and Qwen 2.5 (7B) are evaluated. Each language model is trained in two stages: first, a continued pretraining phase in which the model is adapted to legal language, improving its ability to understand and generate text in this specialized domain. With this end, we use a corpus of more than 26,000 legal documents composed of legislation, legal doctrine, and case law. The impact of the pretraining phase is evaluated with metrics such as BLEU, BERTScore, and perplexity. In the second stage, a task-specific finetuning is performed for anonymization and entity extraction. This finetuning is conducted using a dataset consisting of 150 segments. The finetuning was evaluated on a test set of 50 segments, achieving 92.79% correct anonymization with Qwen 2.5 (7B) and 91.58% with LLaMA 3.1 (8B), improving by 4.73% and 12.87% respectively compared to the base model with finetuning, highlighting the influence of continued pretraining as a preliminary step. Both training phases, continued pretraining and finetuning, were conducted using LoRA. 
Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.