Evaluación de la predicción del nivel de complejidad de las palabras en los estudios de derecho aplicando el modelo de lenguaje basado en Transformers XLM-RoBERTa

No hay miniatura disponible
Fecha
2023-03
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
Este proyecto de investigación pretende lograr el mejoramiento del nivel de predicción de complejidad de las palabras en idioma español mediante la aplicación de Deep Learning y su modelo de lenguaje basado en Transformers, específicamente los dirigidos a español XLM-RoBERTa. El objetivo del proyecto busca contribuir a la reducción de las barreras de la comprensión lectora de los estudiantes de la carrera de Derecho de la Universidad de Guayaquil mediante la evaluación de los resultados generados de la ejecución del modelo. Se aplicaron las técnicas de Masked Language Modeling y Fine-Tuning para lograr una mejor precisión en la predicción de la complejidad. Se utilizó el corpus CEDUG (Complejidad léxica en los Estudios de Derecho de la Universidad de Guayaquil) el cual es un corpus etiquetado por los estudiantes de la carrera de Derecho. Este Dataset contiene textos extraídos de diferentes documentos jurídicos provenientes de varias fuentes como la Constitución del Ecuador y proyectos de titulación de la carrera de Derecho. Para el proceso de entrenamiento y evaluación se aplicaron las métricas del error común MAE, MSE, RMSE, y otras orientadas a la evaluación de la complejidad de las palabras como son R2 y Pearson. La población estuvo conformada por los estudiantes de la carrera de Derecho. La metodología de investigación que se aplicó fue cuantitativa y un muestreo por estratos. Adicional a este estudio se realizó una contribución en el cual se aplicaron otros modelos de lenguaje para el idioma español, los cuales fueron XLM-RoBERTa-base, XLM-RoBERTa-Large, RoBERTa-Large-BNE.
This research project aims to improve the level of complexity prediction of words in Spanish through the application of Deep Learning and its language model based on Transformers, specifically those directed to Spanish XLM-RoBERTa. The objective of the project seeks to contribute to the reduction of the barriers of reading comprehension of the students of the Law career of the University of Guayaquil through the evaluation of the results generated from the execution of the model. Masked Language Modeling and Fine-Tuning techniques were applied to achieve better accuracy in complexity prediction. The CEDUG corpus (Lexical Complexity in Law Studies at the University of Guayaquil) was used, which is a corpus labeled by Law students. This Dataset contains texts extracted from different legal documents from various sources such as the Constitution of Ecuador and degree projects for the Law degree. For the training and evaluation process, the common error metrics MAE, MSE, RMSE, and others oriented to the evaluation of the complexity of words such as R2 and Pearson were applied. The population was made up of Law students. The research methodology that was applied was quantitative and a sampling by strata. In addition to this study, a contribution was made in which other language models for the Spanish language were applied, which were XLM-RoBERTa-base, XLM-RoBERTa-Large, RoBERTa-Large-BNE.
Descripción
PDF
Palabras clave
DEEP LEARNING, CORPUS, TRANSFORMERS, FINE-TUNING, MODELO DE LENGUAJE, PREDICCIÓN, LANGUAGE MODEL, PREDICTION
Citación