Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.

Fecha
2022-10-03
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
La investigación está enfocada en determinar la autoría de textos en el idioma español, se usará un data set de las campañas PAN 2015, en el cual, se analizará un corpus aproximado de 500 documentos de texto de 100 autores, para determinar las palabras de uso frecuente del idioma español se usó “El Corpus de Referencia del Español Actual” (CREA), el cual es validado por la Real Academia Española de la Lengua, también se utilizará una biblioteca para estilometría, que nos ayudará a extraer varias características estilométricas y calcular las distancias que existen entre las palabras, luego se procede a entrenar y evaluar varios métodos clasificadores. Para lograrlo, se establecerá el estado del arte de la estilometría y métodos clasificadores, mediante la investigación de contribuciones científicas se determinará las técnicas de machine learning y análisis estilométrico, entrenando métodos clasificadores potenciados con validación cruzada utilizando estas características, se evalúa cada clasificador utilizando métricas de evaluación. Los resultados obtenidos según la métrica F1 del Multilayer Perceptron, Gradient Boost y el Decision Tree fueron 0.8840, 0.8622 y 0.8166 de precisión respectivamente, evidenciando que el método con el mejor resultado es el Multilayer Perceptron, también se determina que al experimentar con 400 palabras se obtienen mejores resultados, superando esta cantidad de palabras los resultados empiezan a decaer. Concluyendo que es posible determinar la autoría de textos en idioma español realizando las adaptaciones necesarias usando el análisis estilométrico y el uso de validación cruzada.
Our research is focused on determining the authorship of texts in the Spanish language, we will use a data set of the PAN 2015 campaigns, in which, we will analyze a corpus of approximately 500 text documents of 100 authors, to determine the frequently used words of the Spanish language we used "El Corpus de Referencia del Español Actual" (CREA), which is validated by the Real Academia Española de la Lengua, a library for stylometry will also be used, which will help us to extract several stylometric characteristics and calculate the distances that exist between words, then we proceed to train and evaluate several classifier methods. To achieve this, we will establish the state of the art of stylometry and classifier methods, by researching scientific contributions we will determine the techniques of machine learning and stylometric analysis, training powered classifier methods with cross-validation using these features, each classifier is evaluated using evaluation metrics. The results obtained according to the F1 metric of the Multilayer Perceptron, Gradient Boost and the Decision Tree were 0.8840, 0.8622 and 0.8166 of accuracy respectively, showing that the method with the best result is the Multilayer Perceptron, it is also determined that when experimenting with 400 words better results are obtained, exceeding this number of words the results begin to decline. In conclusion, it is possible to determine the authorship of Spanish texts by making the necessary adaptations using stylometric analysis and the use of cross-validation.
Descripción
PDF
Palabras clave
Machine Learning, Estilometría, Autoría, Métricas de evaluación, Métodos clasificadores, Validación cruzada, Stylometry, Authorship, Evaluation metrics, Classifier methods, Cross-validation
Citación