Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.

Aucapiña Camas, Carlos Ismael; Pazmiño Rosales, Maria Belén

Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.

Archivos

B-CISC-PTG#2187-Año 2022 Aucapiña Camas Carlos Ismael - Pazmiño Rosales Maria Belén.pdf(3.15 MB)

Fecha

2022-10-04

Autores

Aucapiña Camas, Carlos Ismael

Pazmiño Rosales, Maria Belén

Editor

Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.

Resumen

El objetivo de este artículo es determinar el género y la profesión de los usuarios de Twitter en Ecuador, mediante el análisis de características estilométricas y técnicas de Machine Learning (ML) para la Atribución de Autoría. El proyecto corresponde a un tipo de investigación cuantitativa-bibliográfica, con diseño experimental realizada en lenguaje de programación Python, en el ambiente de prueba Google Colab. Su desarrollo consiste inicialmente en extraer 6000 tweets de 120 usuarios, que serán divididos 5000 para entrenamiento y 1000 para pruebas. Luego, para el pre-procesamiento de la información se implementa características de tipo fraseológicas y de frecuencia de palabras utilizando el listado CREA proporcionado por la Real Academia Española. Posteriormente se entrena los cinco métodos clasificadores escogidos: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) y Gradient Boosting (GB), y se evalúa su comportamiento a través de la técnica de Validación Cruzada y métricas de precisión para escoger el clasificador ideal para la predicción del género y profesión. Por último, se presentan los resultados en conductas observables y medibles. En este caso, se determinó que Random Forest obtuvo 0.63 de precisión al predecir el género y, el método MLP Classifier un 0.84 de precisión para la profesión, superando al resto de clasificadores. En conclusión, el estudio de esta investigación es de gran interés, debido a que aplica métodos tecnológicos actuales y brinda soluciones óptimas en atribución de autoría para textos cortos.
The objective of this article is to determine the gender and profession of Twitter users in Ecuador, through the analysis of stylometric characteristics and Machine Learning (ML) techniques for Authorship Attribution. The project corresponds to a quantitative-bibliographic type of research, with experimental design carried out in Python programming language, in the Google Colab test environment. Its development consists initially in extracting 6000 tweets from 120 users, which will be divided 5000 for training and 1000 for testing. Then, for the pre-processing of the information, phraseological and word frequency type features are implemented using the CREA list provided by the Real Academia Española. Subsequently, the five chosen classifier methods are trained: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) and Gradient Boosting (GB), and their performance is evaluated through the Cross Validation technique and accuracy metrics to choose the ideal classifier for gender and profession prediction. Finally, the results are presented in observable and measurable behaviors. In this case, it was determined that Random Forest obtained 0.63 accuracy in predicting gender and the MLP Classifier method obtained 0.84 accuracy for profession, surpassing the rest of the classifiers. In conclusion, the study of this research is of great interest, because it applies current technological methods and provides optimal solutions in authorship attribution for short texts.

Descripción

PDF

Palabras clave

Machine Learning, Estilometría, Métodos de Clasificación, Atribución de Autoría, Validación Cruzada, Cross-Validation, Stylometry, Classification Methods, Authorship Attribution

URI

http://repositorio.ug.edu.ec/handle/redug/65302

Colecciones

Proyectos - Ingeniería en Sistemas Computacionales

Página completa del ítem