Evaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.

Aroca Pincay, Diana Geovanna; Bernal Yucailla, Diego Gabriel

Evaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.

Archivos

B-CISC-PTG#2098-Año 2022 Aroca Pincay Diana Geovanna - Bernal Yucailla Diego Gabriel .pdf(3.42 MB)

Fecha

2022-03-18

Autores

Aroca Pincay, Diana Geovanna

Bernal Yucailla, Diego Gabriel

Editor

Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.

Resumen

La presente investigacion plantea la exploracion y evaluacion de los diferentes modelos de Transformers aplicados para el idioma español las cuales son BERT, XML-RoBERTa y RoBERTa-Large-BNE con el objetivo de evaluar el nivel de prediccion de las palabras complejas de los textos en español. Estos modelos pre-entrenados serán ejecutados con un corpus previamente creado de los textos Universitarios en español- ClexIS2 aplicando el algoritmo pre-entrenado generico del codigo abierto de cada Transformers. Esto permitiendo la generacion de embedding(incrustaciones-encodings) para la creacion de los Datasets que previamente seran enntrenados por los diferentes algoritmos de Machine Learning, obteniendo la prediccion de la complejidad Léxica(LCP).Ya realizado la exploracion de los Transformers se procedera a la realizacion del ajuste fino a cada modelo mediante la ejecucion de la tecnica de Fine-Tuning sobre los modelos pre-entrenados para la generacion de los Datasets basados en las nuevas representaciones numericas, que a su vez tambien procederan ser entrenados y evaluados por los diferentes algoritmos para obtener la prediccion de la complejidad Léxica.Ya obtenido los resultados de las diferentes combinaciones de los modelos pre-entrenados y ajustados de los modelos Transformers se evaluara su desempeño para determinar los mejores resultados de la prediccion de la complejidad Lexica del idioma español.
This research proposes the exploration and evaluation of the different Transformers models applied to the Spanish language, which are BERT, XML-RoBERTa and RoBERTa-Large-BNE with the aim of evaluating the level of prediction of complex words in texts in Spanish. Spanish. These pretrained models will be executed with a previously created corpus of University texts in Spanish - ClexIS2 applying the open source generic pretrained algorithm of each Transformers. This allowed the generation of embedding (embeddings-encodings) for the creation of the Datasets that were previously trained by the different Machine Learning algorithms, obtaining the Lexical Complexity Prediction (LCP). Once the exploration of the Transformers has been carried out, we will proceed to the realization of the fine adjustment to each model by means of the execution of the Fine-Tuning technique on the pre-trained models for the generation of the Datasets based on the new numerical representations, which in turn will also proceed to be alterations and evaluated by the different algorithms to obtain the prediction of the Lexical complexity. You have already obtained the results of the different combinations of the pre-trained and adjusted models of the Transformers models, their performance will be evaluated to determine the best results of the prediction of the Lexical complexity of the language Spanish.

Descripción

PDF

Palabras clave

Transformers, Datasets, Fine-Tuning, Machine Learning,, Algoritmos, Predicción de la complejidad léxica, Transformers, Algorithms, Lexical complexity prediction

URI

http://repositorio.ug.edu.ec/handle/redug/59961

Colecciones

Proyectos - Ingeniería en Sistemas Computacionales

Página completa del ítem