Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.

Aucapiña Camas, Carlos Ismael; Pazmiño Rosales, Maria Belén

Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.

dc.contributor.author	Aucapiña Camas, Carlos Ismael
dc.contributor.author	Pazmiño Rosales, Maria Belén
dc.contributor.tutor	Espín Riofrio, Cesar
dc.date.accessioned	2022-12-09T20:55:58Z
dc.date.available	2022-12-09T20:55:58Z
dc.date.issued	2022-10-04
dc.description	PDF	es_ES
dc.description.abstract	El objetivo de este artículo es determinar el género y la profesión de los usuarios de Twitter en Ecuador, mediante el análisis de características estilométricas y técnicas de Machine Learning (ML) para la Atribución de Autoría. El proyecto corresponde a un tipo de investigación cuantitativa-bibliográfica, con diseño experimental realizada en lenguaje de programación Python, en el ambiente de prueba Google Colab. Su desarrollo consiste inicialmente en extraer 6000 tweets de 120 usuarios, que serán divididos 5000 para entrenamiento y 1000 para pruebas. Luego, para el pre-procesamiento de la información se implementa características de tipo fraseológicas y de frecuencia de palabras utilizando el listado CREA proporcionado por la Real Academia Española. Posteriormente se entrena los cinco métodos clasificadores escogidos: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) y Gradient Boosting (GB), y se evalúa su comportamiento a través de la técnica de Validación Cruzada y métricas de precisión para escoger el clasificador ideal para la predicción del género y profesión. Por último, se presentan los resultados en conductas observables y medibles. En este caso, se determinó que Random Forest obtuvo 0.63 de precisión al predecir el género y, el método MLP Classifier un 0.84 de precisión para la profesión, superando al resto de clasificadores. En conclusión, el estudio de esta investigación es de gran interés, debido a que aplica métodos tecnológicos actuales y brinda soluciones óptimas en atribución de autoría para textos cortos.	es_ES
dc.description.abstract	The objective of this article is to determine the gender and profession of Twitter users in Ecuador, through the analysis of stylometric characteristics and Machine Learning (ML) techniques for Authorship Attribution. The project corresponds to a quantitative-bibliographic type of research, with experimental design carried out in Python programming language, in the Google Colab test environment. Its development consists initially in extracting 6000 tweets from 120 users, which will be divided 5000 for training and 1000 for testing. Then, for the pre-processing of the information, phraseological and word frequency type features are implemented using the CREA list provided by the Real Academia Española. Subsequently, the five chosen classifier methods are trained: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) and Gradient Boosting (GB), and their performance is evaluated through the Cross Validation technique and accuracy metrics to choose the ideal classifier for gender and profession prediction. Finally, the results are presented in observable and measurable behaviors. In this case, it was determined that Random Forest obtained 0.63 accuracy in predicting gender and the MLP Classifier method obtained 0.84 accuracy for profession, surpassing the rest of the classifiers. In conclusion, the study of this research is of great interest, because it applies current technological methods and provides optimal solutions in authorship attribution for short texts.	es_ES
dc.identifier.uri	http://repositorio.ug.edu.ec/handle/redug/65302
dc.language.iso	spa	es_ES
dc.publisher	Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.	es_ES
dc.rights	openAccess	es_ES
dc.subject	Machine Learning	es_ES
dc.subject	Estilometría	es_ES
dc.subject	Métodos de Clasificación	es_ES
dc.subject	Atribución de Autoría	es_ES
dc.subject	Validación Cruzada	es_ES
dc.subject	Cross-Validation	es_ES
dc.subject	Stylometry	es_ES
dc.subject	Classification Methods	es_ES
dc.subject	Authorship Attribution	es_ES
dc.title	Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.	es_ES
dc.type	bachelorThesis	es_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: B-CISC-PTG#2187-Año 2022 Aucapiña Camas Carlos Ismael - Pazmiño Rosales Maria Belén.pdf
Tamaño:: 3.15 MB
Formato:: Adobe Portable Document Format
Descripción:: UG-FCMF-B-CISC-CINT-PTG#2187 - Año 2022

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 902 B
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Proyectos - Ingeniería en Sistemas Computacionales