Examinando por Autor "Aucapiña Camas, Carlos Ismael"
Mostrando 1 - 1 de 1
Resultados por página
Opciones de ordenación
- ÍtemAcceso AbiertoDeterminación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.(Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales., 2022-10-04) Aucapiña Camas, Carlos Ismael; Pazmiño Rosales, Maria Belén; Espín Riofrio, CesarEl objetivo de este artículo es determinar el género y la profesión de los usuarios de Twitter en Ecuador, mediante el análisis de características estilométricas y técnicas de Machine Learning (ML) para la Atribución de Autoría. El proyecto corresponde a un tipo de investigación cuantitativa-bibliográfica, con diseño experimental realizada en lenguaje de programación Python, en el ambiente de prueba Google Colab. Su desarrollo consiste inicialmente en extraer 6000 tweets de 120 usuarios, que serán divididos 5000 para entrenamiento y 1000 para pruebas. Luego, para el pre-procesamiento de la información se implementa características de tipo fraseológicas y de frecuencia de palabras utilizando el listado CREA proporcionado por la Real Academia Española. Posteriormente se entrena los cinco métodos clasificadores escogidos: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) y Gradient Boosting (GB), y se evalúa su comportamiento a través de la técnica de Validación Cruzada y métricas de precisión para escoger el clasificador ideal para la predicción del género y profesión. Por último, se presentan los resultados en conductas observables y medibles. En este caso, se determinó que Random Forest obtuvo 0.63 de precisión al predecir el género y, el método MLP Classifier un 0.84 de precisión para la profesión, superando al resto de clasificadores. En conclusión, el estudio de esta investigación es de gran interés, debido a que aplica métodos tecnológicos actuales y brinda soluciones óptimas en atribución de autoría para textos cortos.