Evaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.

Aroca Pincay, Diana Geovanna; Bernal Yucailla, Diego Gabriel

Evaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.

dc.contributor.author	Aroca Pincay, Diana Geovanna
dc.contributor.author	Bernal Yucailla, Diego Gabriel
dc.contributor.tutor	Ortiz Zambrano, Jenny Alexandra
dc.date.accessioned	2022-05-17T17:14:57Z
dc.date.available	2022-05-17T17:14:57Z
dc.date.issued	2022-03-18
dc.description	PDF	es_ES
dc.description.abstract	La presente investigacion plantea la exploracion y evaluacion de los diferentes modelos de Transformers aplicados para el idioma español las cuales son BERT, XML-RoBERTa y RoBERTa-Large-BNE con el objetivo de evaluar el nivel de prediccion de las palabras complejas de los textos en español. Estos modelos pre-entrenados serán ejecutados con un corpus previamente creado de los textos Universitarios en español- ClexIS2 aplicando el algoritmo pre-entrenado generico del codigo abierto de cada Transformers. Esto permitiendo la generacion de embedding(incrustaciones-encodings) para la creacion de los Datasets que previamente seran enntrenados por los diferentes algoritmos de Machine Learning, obteniendo la prediccion de la complejidad Léxica(LCP).Ya realizado la exploracion de los Transformers se procedera a la realizacion del ajuste fino a cada modelo mediante la ejecucion de la tecnica de Fine-Tuning sobre los modelos pre-entrenados para la generacion de los Datasets basados en las nuevas representaciones numericas, que a su vez tambien procederan ser entrenados y evaluados por los diferentes algoritmos para obtener la prediccion de la complejidad Léxica.Ya obtenido los resultados de las diferentes combinaciones de los modelos pre-entrenados y ajustados de los modelos Transformers se evaluara su desempeño para determinar los mejores resultados de la prediccion de la complejidad Lexica del idioma español.	es_ES
dc.description.abstract	This research proposes the exploration and evaluation of the different Transformers models applied to the Spanish language, which are BERT, XML-RoBERTa and RoBERTa-Large-BNE with the aim of evaluating the level of prediction of complex words in texts in Spanish. Spanish. These pretrained models will be executed with a previously created corpus of University texts in Spanish - ClexIS2 applying the open source generic pretrained algorithm of each Transformers. This allowed the generation of embedding (embeddings-encodings) for the creation of the Datasets that were previously trained by the different Machine Learning algorithms, obtaining the Lexical Complexity Prediction (LCP). Once the exploration of the Transformers has been carried out, we will proceed to the realization of the fine adjustment to each model by means of the execution of the Fine-Tuning technique on the pre-trained models for the generation of the Datasets based on the new numerical representations, which in turn will also proceed to be alterations and evaluated by the different algorithms to obtain the prediction of the Lexical complexity. You have already obtained the results of the different combinations of the pre-trained and adjusted models of the Transformers models, their performance will be evaluated to determine the best results of the prediction of the Lexical complexity of the language Spanish.	es_ES
dc.identifier.uri	http://repositorio.ug.edu.ec/handle/redug/59961
dc.language.iso	spa	es_ES
dc.publisher	Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.	es_ES
dc.rights	openAccess	es_ES
dc.subject	Transformers	es_ES
dc.subject	Datasets	es_ES
dc.subject	Fine-Tuning	es_ES
dc.subject	Machine Learning,	es_ES
dc.subject	Algoritmos	es_ES
dc.subject	Predicción de la complejidad léxica	es_ES
dc.subject	Transformers	es_ES
dc.subject	Algorithms	es_ES
dc.subject	Lexical complexity prediction	es_ES
dc.title	Evaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.	es_ES
dc.type	bachelorThesis	es_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: B-CISC-PTG#2098-Año 2022 Aroca Pincay Diana Geovanna - Bernal Yucailla Diego Gabriel .pdf
Tamaño:: 3.42 MB
Formato:: Adobe Portable Document Format
Descripción:: UG-FCMF-B-CISC-PTG#2098-Año 2022.

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 902 B
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Proyectos - Ingeniería en Sistemas Computacionales