Las características lingüísticas y su aporte en la predicción de la complejidad léxica en la ejecución de los modelos de lenguajes basados en Transformers.

Fecha
2023-10
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
El propósito de este proyecto de investigación es mejorar los resultados de la predicción del nivel de complejidad de las palabras en español mediante el uso de Deep Learning y modelos de lenguaje basados en arquitectura Transformers, específicamente enfocados al idioma español, como XLM- RoBERTa-Large, RoBERTa-Large-BNE, XLM-RoBERTa-base y BERT base. El objetivo principal pretende contribuir a la reducción de las barreras de comprensión lectora para los estudiantes de la carrera de Derecho en la Universidad de Guayaquil. Para lograr esto, se aplicaron las técnicas de Multimodal y Masked Language Modeling para aumentar la precisión para el entrenamiento y evaluación es el CEDUG (Complejidad léxica en los Estudios de Derecho de la Universidad de Guayaquil) y CLexIS² (Complejidad léxica en los Estudios de Software y Sistemas de la Universidad de Guayaquil), los cuales fueron etiquetados por estudiantes. El proceso de evaluación se basó en diversas métricas, como el error común MAE, MSE y RMSE, y otras enfocadas en evaluar la complejidad de las palabras, como R2. Se utilizó una metodología de investigación cuantitativa y un muestreo por estratos para llevar a cabo el proceso de entrenamiento y evaluación.
The purpose of this research project is to improve the results of the prediction of the level of complexity of words in Spanish through the use of Deep Learning and language models based on Transformers architecture, specifically focused on the Spanish language, such as XLM-RoBERTa- Large, RoBERTa-Large-BNE, XLM-RoBERTa-base and BERT base. The main objective is to contribute to the reduction of reading comprehension barriers for students of the Law degree at the University of Guayaquil. To achieve this, Multimodal and Masked Language Modeling techniques were applied to increase accuracy for training and evaluation in CEDUG (Lexical Complexity in Law Studies at the University of Guayaquil) and CLexIS² (Lexical Complexity in Software Studies). and Systems of the University of Guayaquil), which were labeled by students. The evaluation process was based on various metrics, such as the common error MAE, MSE and RMSE, and others focused on evaluating the complexity of words, such as R2. A quantitative research methodology and stratified sampling were used to carry out the training and evaluation process
Descripción
PDF
Palabras clave
MODELOS DE LENGUAJE, COMPLEJIDAD LÉXICA, PREDICCIÓN, ESPAÑOL, FINE-TUNING, LANGUAGE MODELS, LEXICAL COMPLEXITY, PREDICTION, SPANISH
Citación