Un nuevo corpus etiquetado para la investigación de las palabras complejas en la carrera de Derecho de la Universidad de Guayaquil”

Fecha
2022-09
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
Este proyecto de titulaciòn plantea analizar el nivel de complejidad léxica a través de la creación de un corpus de textos universitarios en idioma español como desarrollo de herramienta efectiva para continuar las investigaciones en el área de la Simplificación Léxica del campo del PLN. Con la creación de este corpus los estudiantes de la carrera de Derecho podrán hacer la respectiva identificación y anotación de las palabras para su comprensión. Se aplicó la metodología de desarrollo Kamban la misma que se encuentra basada en Estudios de Casos, por lo cual sus unidades de análisis se fundamentaron en las características lingüísticas generadas mediante la aplicación de un conjunto de métricas de la complejidad léxica. Posteriormente se obtuvieron los respectivos gráficos estadísticos para evaluar la eficacia del proceso del etiquetado de las palabras complejas anotadas en el corpus, dicho proceso se llevó a cabo a través de la creación de varios scripts de programación, obteniendo como resultado una alta complejidad en los textos que conforman el corpus. En conclusión, el corpus creado ayuda en la identificación de las palabras complejas que causan barreras en la comprensión lectora en los estudiantes universitarios de la carrera de Derecho.
This degree project aims to analyze the level of lexical complexity through the creation of a corpus of university texts in Spanish as an effective tool to continue research in the area of Lexical Simplification in the PLN field. With the creation of this corpus, Law students will be able to make the respective identification and annotation of the words for their understanding. The Kamban development methodology was applied, the same one that was found based on Case Studies, for which its units of analysis were based on the linguistic characteristics produced by applying a set of lexical complexity metrics. Subsequently, the established graphics will be required to evaluate the effectiveness of the labeling process of the complex words annotated in the corpus, this process was carried out through the creation of several programming scripts, obtaining as a result a high complexity in the texts that according to the corpus. In conclusion, the created application helps to the identification of complex words that cause barriers in reading comprehension in university students of the Law career
Descripción
PDF
Palabras clave
Corpus, Etiquetado, Estudios en Derecho, Complejidad Léxica, Español, Lexical complexity, Labeling, Law studies, Spanish
Citación