Evaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.

dc.contributor.authorAroca Pincay, Diana Geovanna
dc.contributor.authorBernal Yucailla, Diego Gabriel
dc.contributor.tutorOrtiz Zambrano, Jenny Alexandra
dc.date.accessioned2022-05-17T17:14:57Z
dc.date.available2022-05-17T17:14:57Z
dc.date.issued2022-03-18
dc.descriptionPDFes_ES
dc.description.abstractLa presente investigacion plantea la exploracion y evaluacion de los diferentes modelos de Transformers aplicados para el idioma español las cuales son BERT, XML-RoBERTa y RoBERTa-Large-BNE con el objetivo de evaluar el nivel de prediccion de las palabras complejas de los textos en español. Estos modelos pre-entrenados serán ejecutados con un corpus previamente creado de los textos Universitarios en español- ClexIS2 aplicando el algoritmo pre-entrenado generico del codigo abierto de cada Transformers. Esto permitiendo la generacion de embedding(incrustaciones-encodings) para la creacion de los Datasets que previamente seran enntrenados por los diferentes algoritmos de Machine Learning, obteniendo la prediccion de la complejidad Léxica(LCP).Ya realizado la exploracion de los Transformers se procedera a la realizacion del ajuste fino a cada modelo mediante la ejecucion de la tecnica de Fine-Tuning sobre los modelos pre-entrenados para la generacion de los Datasets basados en las nuevas representaciones numericas, que a su vez tambien procederan ser entrenados y evaluados por los diferentes algoritmos para obtener la prediccion de la complejidad Léxica.Ya obtenido los resultados de las diferentes combinaciones de los modelos pre-entrenados y ajustados de los modelos Transformers se evaluara su desempeño para determinar los mejores resultados de la prediccion de la complejidad Lexica del idioma español.es_ES
dc.description.abstractThis research proposes the exploration and evaluation of the different Transformers models applied to the Spanish language, which are BERT, XML-RoBERTa and RoBERTa-Large-BNE with the aim of evaluating the level of prediction of complex words in texts in Spanish. Spanish. These pretrained models will be executed with a previously created corpus of University texts in Spanish - ClexIS2 applying the open source generic pretrained algorithm of each Transformers. This allowed the generation of embedding (embeddings-encodings) for the creation of the Datasets that were previously trained by the different Machine Learning algorithms, obtaining the Lexical Complexity Prediction (LCP). Once the exploration of the Transformers has been carried out, we will proceed to the realization of the fine adjustment to each model by means of the execution of the Fine-Tuning technique on the pre-trained models for the generation of the Datasets based on the new numerical representations, which in turn will also proceed to be alterations and evaluated by the different algorithms to obtain the prediction of the Lexical complexity. You have already obtained the results of the different combinations of the pre-trained and adjusted models of the Transformers models, their performance will be evaluated to determine the best results of the prediction of the Lexical complexity of the language Spanish.es_ES
dc.identifier.urihttp://repositorio.ug.edu.ec/handle/redug/59961
dc.language.isospaes_ES
dc.publisherUniversidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.es_ES
dc.rightsopenAccesses_ES
dc.subjectTransformerses_ES
dc.subjectDatasetses_ES
dc.subjectFine-Tuninges_ES
dc.subjectMachine Learning,es_ES
dc.subjectAlgoritmoses_ES
dc.subjectPredicción de la complejidad léxicaes_ES
dc.subjectTransformerses_ES
dc.subjectAlgorithmses_ES
dc.subjectLexical complexity predictiones_ES
dc.titleEvaluación de desempeño de los modelos transformadores para la predicción de la complejidad léxica para el Idioma Español.es_ES
dc.typebachelorThesises_ES
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
B-CISC-PTG#2098-Año 2022 Aroca Pincay Diana Geovanna - Bernal Yucailla Diego Gabriel .pdf
Tamaño:
3.42 MB
Formato:
Adobe Portable Document Format
Descripción:
UG-FCMF-B-CISC-PTG#2098-Año 2022.
Bloque de licencias
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
902 B
Formato:
Item-specific license agreed upon to submission
Descripción: