Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.

dc.contributor.authorAucapiña Camas, Carlos Ismael
dc.contributor.authorPazmiño Rosales, Maria Belén
dc.contributor.tutorEspín Riofrio, Cesar
dc.date.accessioned2022-12-09T20:55:58Z
dc.date.available2022-12-09T20:55:58Z
dc.date.issued2022-10-04
dc.descriptionPDFes_ES
dc.description.abstractEl objetivo de este artículo es determinar el género y la profesión de los usuarios de Twitter en Ecuador, mediante el análisis de características estilométricas y técnicas de Machine Learning (ML) para la Atribución de Autoría. El proyecto corresponde a un tipo de investigación cuantitativa-bibliográfica, con diseño experimental realizada en lenguaje de programación Python, en el ambiente de prueba Google Colab. Su desarrollo consiste inicialmente en extraer 6000 tweets de 120 usuarios, que serán divididos 5000 para entrenamiento y 1000 para pruebas. Luego, para el pre-procesamiento de la información se implementa características de tipo fraseológicas y de frecuencia de palabras utilizando el listado CREA proporcionado por la Real Academia Española. Posteriormente se entrena los cinco métodos clasificadores escogidos: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) y Gradient Boosting (GB), y se evalúa su comportamiento a través de la técnica de Validación Cruzada y métricas de precisión para escoger el clasificador ideal para la predicción del género y profesión. Por último, se presentan los resultados en conductas observables y medibles. En este caso, se determinó que Random Forest obtuvo 0.63 de precisión al predecir el género y, el método MLP Classifier un 0.84 de precisión para la profesión, superando al resto de clasificadores. En conclusión, el estudio de esta investigación es de gran interés, debido a que aplica métodos tecnológicos actuales y brinda soluciones óptimas en atribución de autoría para textos cortos.es_ES
dc.description.abstractThe objective of this article is to determine the gender and profession of Twitter users in Ecuador, through the analysis of stylometric characteristics and Machine Learning (ML) techniques for Authorship Attribution. The project corresponds to a quantitative-bibliographic type of research, with experimental design carried out in Python programming language, in the Google Colab test environment. Its development consists initially in extracting 6000 tweets from 120 users, which will be divided 5000 for training and 1000 for testing. Then, for the pre-processing of the information, phraseological and word frequency type features are implemented using the CREA list provided by the Real Academia Española. Subsequently, the five chosen classifier methods are trained: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) and Gradient Boosting (GB), and their performance is evaluated through the Cross Validation technique and accuracy metrics to choose the ideal classifier for gender and profession prediction. Finally, the results are presented in observable and measurable behaviors. In this case, it was determined that Random Forest obtained 0.63 accuracy in predicting gender and the MLP Classifier method obtained 0.84 accuracy for profession, surpassing the rest of the classifiers. In conclusion, the study of this research is of great interest, because it applies current technological methods and provides optimal solutions in authorship attribution for short texts.es_ES
dc.identifier.urihttp://repositorio.ug.edu.ec/handle/redug/65302
dc.language.isospaes_ES
dc.publisherUniversidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.es_ES
dc.rightsopenAccesses_ES
dc.subjectMachine Learninges_ES
dc.subjectEstilometríaes_ES
dc.subjectMétodos de Clasificaciónes_ES
dc.subjectAtribución de Autoríaes_ES
dc.subjectValidación Cruzadaes_ES
dc.subjectCross-Validationes_ES
dc.subjectStylometryes_ES
dc.subjectClassification Methodses_ES
dc.subjectAuthorship Attributiones_ES
dc.titleDeterminación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.es_ES
dc.typebachelorThesises_ES
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
B-CISC-PTG#2187-Año 2022 Aucapiña Camas Carlos Ismael - Pazmiño Rosales Maria Belén.pdf
Tamaño:
3.15 MB
Formato:
Adobe Portable Document Format
Descripción:
UG-FCMF-B-CISC-CINT-PTG#2187 - Año 2022
Bloque de licencias
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
902 B
Formato:
Item-specific license agreed upon to submission
Descripción: