“Duplicidad de código en Stack Overflow en español e inglés”.

Fecha
2021
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
Los sitios de Stack Overflow y Stack Overflow en español proporcionan una plataforma web para que los programadores profesionales, estudiantes o aficionados discutan problemas técnicos en forma de (Q&A). El servicio de preguntas y respuestas se da a través de debates, lo que brinda a una gran audiencia y uso de conocimientos, este servicio de preguntas y respuestas está separado del entorno de desarrollo utilizado por los programadores. Sin embargo, el problema más común que se ha dado en esta comunidad es la duplicidad de fragmentos de códigos en cada publicación en SO en inglés y español, el propósito de este estudio es implementar modelos con técnicas de aprendizaje automático que permita detectar duplicidad código, mediante una revisión de literatura o un mapeo sistemático en donde se determinó las técnicas y algoritmos más utilizadas por otros autores como son Redes Neuronales, Random Forest y Support Vector Machine, se construyó un dataset para almacenar los datos de etiquetado manual, con los resultados obtenidos se evaluaron la precisión de cada una de las técnicas, dando como una precisión favorable al momento de detectar fragmentos de códigos. Finalmente, se da a conocer que el algoritmo de Random Forest fue la más precisa para identificar duplicidad en los fragmentos de códigos en las publicaciones de Stack Overflow y Stack Overflow en español.
The Stack Overflow and Stack Overflow Spanish sites offer a web platform for professional, student or hobbyist programmers to discuss technical issues in the form of (Q&A). The question-and-answer service is given through discussions, which provides a large audience and use of knowledge, this question-and-answer service is separate from the development environment used by programmers. However, the most common problem that has occurred in this community is the duplication of code fragments in each publication in SO in English and Spanish, the purpose of this study is to implement models with machine learning techniques that allow detecting code duplication, Through a literature review or systematic mapping where the techniques and algorithms most used by other authors were determined, such as Neural Networks, Random Forest and Support Vector Machine, a dataset was built to store the manual labeling data, with the results obtained. The precision of each of the techniques was evaluated, giving a favorable precision when detecting code fragments. Finally, it is disclosed that the Random Forest algorithm was the most accurate to identify duplication in code fragments in the Stack Overflow and Stack Overflow publications in Spanish.
Descripción
PDF
Palabras clave
Stack Overflow, Aprendizaje automático, Duplicidad, Algoritmos, Código, Preguntas y respuestas, Machine learning, Duplication, Algorithms, Code, Questions and answers
Citación