Evaluación de la predicción del nivel de complejidad de las palabras en los estudios de derecho aplicando el modelo de lenguaje basado en Transformers XLM-RoBERTa

dc.contributor.authorCruz Rojas, Petter Israel
dc.contributor.authorRodríguez Poveda, Bryan Jesús
dc.contributor.tutorOrtíz Zambrano, Jenny Alexandra
dc.date.accessioned2023-06-12T16:31:20Z
dc.date.available2023-06-12T16:31:20Z
dc.date.issued2023-03
dc.descriptionPDFes_ES
dc.description.abstractEste proyecto de investigación pretende lograr el mejoramiento del nivel de predicción de complejidad de las palabras en idioma español mediante la aplicación de Deep Learning y su modelo de lenguaje basado en Transformers, específicamente los dirigidos a español XLM-RoBERTa. El objetivo del proyecto busca contribuir a la reducción de las barreras de la comprensión lectora de los estudiantes de la carrera de Derecho de la Universidad de Guayaquil mediante la evaluación de los resultados generados de la ejecución del modelo. Se aplicaron las técnicas de Masked Language Modeling y Fine-Tuning para lograr una mejor precisión en la predicción de la complejidad. Se utilizó el corpus CEDUG (Complejidad léxica en los Estudios de Derecho de la Universidad de Guayaquil) el cual es un corpus etiquetado por los estudiantes de la carrera de Derecho. Este Dataset contiene textos extraídos de diferentes documentos jurídicos provenientes de varias fuentes como la Constitución del Ecuador y proyectos de titulación de la carrera de Derecho. Para el proceso de entrenamiento y evaluación se aplicaron las métricas del error común MAE, MSE, RMSE, y otras orientadas a la evaluación de la complejidad de las palabras como son R2 y Pearson. La población estuvo conformada por los estudiantes de la carrera de Derecho. La metodología de investigación que se aplicó fue cuantitativa y un muestreo por estratos. Adicional a este estudio se realizó una contribución en el cual se aplicaron otros modelos de lenguaje para el idioma español, los cuales fueron XLM-RoBERTa-base, XLM-RoBERTa-Large, RoBERTa-Large-BNE.es_ES
dc.description.abstractThis research project aims to improve the level of complexity prediction of words in Spanish through the application of Deep Learning and its language model based on Transformers, specifically those directed to Spanish XLM-RoBERTa. The objective of the project seeks to contribute to the reduction of the barriers of reading comprehension of the students of the Law career of the University of Guayaquil through the evaluation of the results generated from the execution of the model. Masked Language Modeling and Fine-Tuning techniques were applied to achieve better accuracy in complexity prediction. The CEDUG corpus (Lexical Complexity in Law Studies at the University of Guayaquil) was used, which is a corpus labeled by Law students. This Dataset contains texts extracted from different legal documents from various sources such as the Constitution of Ecuador and degree projects for the Law degree. For the training and evaluation process, the common error metrics MAE, MSE, RMSE, and others oriented to the evaluation of the complexity of words such as R2 and Pearson were applied. The population was made up of Law students. The research methodology that was applied was quantitative and a sampling by strata. In addition to this study, a contribution was made in which other language models for the Spanish language were applied, which were XLM-RoBERTa-base, XLM-RoBERTa-Large, RoBERTa-Large-BNE.es_ES
dc.identifier.urihttp://repositorio.ug.edu.ec/handle/redug/68986
dc.language.isospaes_ES
dc.publisherUniversidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.es_ES
dc.rightsopenAccesses_ES
dc.subjectDEEP LEARNINGes_ES
dc.subjectCORPUSes_ES
dc.subjectTRANSFORMERSes_ES
dc.subjectFINE-TUNINGes_ES
dc.subjectMODELO DE LENGUAJEes_ES
dc.subjectPREDICCIÓNes_ES
dc.subjectLANGUAGE MODELes_ES
dc.subjectPREDICTIONes_ES
dc.titleEvaluación de la predicción del nivel de complejidad de las palabras en los estudios de derecho aplicando el modelo de lenguaje basado en Transformers XLM-RoBERTaes_ES
dc.typebachelorThesises_ES
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
B-CISC-PTG#2254-Año 2023 Cruz Rojas Petter Israel - Rodríguez Poveda Bryan Jesús.pdf
Tamaño:
6.89 MB
Formato:
Adobe Portable Document Format
Descripción:
UG-FCMF-B-CISC-PTG#2254-Año 2023.
Bloque de licencias
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
902 B
Formato:
Item-specific license agreed upon to submission
Descripción: