Creación de un corpus de textos universitarios en español para la identificación de palabras complejas en el área de la simplificación léxica.

Fecha
2021
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
El desarrollo de la lectura y su comprensión se vuelve compleja en ocasiones cuando se encuentra redactada de forma sofisticada o en un lenguaje técnico, causando al lector dificultad de comprensión del contenido. El objetivo de esta investigación es crear un corpus de textos universitarios en español que sirva como recurso en el área de la Simplificación Léxica para el estudio de la Identificación de Palabras Complejas. Entre los principales objetivos específicos se encuentra la creación de un prototipo de sistema de anotación de palabras complejas donde los estudiantes de la Carrera de Ingeniería en Sistemas Computacionales y Software podrán identificar y anotar las palabras que consideren complejas para su comprensión. Se aplicó la metodología de investigación del Estudio de Casos utilizando dos técnicas: el Análisis Documental que permitió la exploración de fuentes bibliográficas para la investigación y el Análisis del Discurso aplicado a las grabaciones de las clases impartidas por los docentes de las Carreras mencionadas anteriormente generando un DataSet que contiene las unidades de análisis para el cálculo de la complejidad léxica de los textos del corpus obtenidos mediante la aplicación de las métricas de complejidad léxica para el idioma español. También se aplicaron medidas de rendimiento para evaluar la eficacia del proceso de etiquetado de las palabras complejas anotadas en el corpus, proceso que fue realizado mediante la creación y ejecución de scripts de programación aplicando técnicas del Procesamiento de Lenguaje Natural, obteniendo como resultado una alta complejidad en los 3887 textos que conforman el corpus y un margen de eficacia de identificación del 49% de acuerdo a los resultados de la matriz de confusión, evidenciando la problemática planteada en la investigación y concluyendo que el corpus contribuirá a la identificación de las palabras complejas que causan las barreras en la compresión lectora en los estudiantes universitarios.
The development of reading and its comprehension becomes complex sometimes when it is written in a sophisticated way or in a technical language, causing the reader difficulty in understanding the content. The objective of this research is to create a corpus of university texts in Spanish to serve as a resource in the area of Lexical Simplification for the study of Complex Word Identification. Among the main specific objectives is the creation of a prototype of a complex word annotation system where students of Computer Systems and Software Engineering can identify and annotate the words they consider complex for their comprehension. The Case Study research methodology was applied using two techniques: Documentary Analysis that allowed the exploration of bibliographic sources for the research, and Discourse Analysis applied to the recordings of the classes given by the teachers of the above mentioned careers generating a DataSet containing the analysis units for the calculation of the lexical complexity of the corpus texts obtained through the application of the lexical complexity metrics for the Spanish language. Performance measures were also applied to evaluate the effectiveness of the tagging process of the complex words annotated in the corpus, a process that was performed by creating and executing programming scripts applying Natural Language Processing techniques, obtaining as a result a high complexity in the 3887 texts that make up the corpus and an identification efficiency margin of 49% according to the results of the confusion matrix, evidencing the problem raised in the research and concluding that the corpus will contribute to the identification of the complex words that cause barriers in reading comprehension in university students.
Descripción
PDF
Palabras clave
Corpus, Español, Etiquetado, Palabras complejas, Complejidad léxica, Corpus, Complex word, Lexical Complexity, Case Study, Performance Measures
Citación