Duplicidad de código en Stack Overflow en español.

Fecha
2021-03
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Resumen
El sitio Stack Overflow en español es una comunidad en línea de preguntas y respuestas sobre desarrollo de software y temas tecnológicos donde sus usuarios pueden publicar interrogantes y aportar sus soluciones a las preguntas de otros usuarios. No obstante, uno de los problemas más recurrente que existe en la comunidad son las publicaciones con segmentos de código duplicado, por tanto, el objetivo de este estudio es desarrollar un modelo de aprendizaje automático para la detección de código duplicado para la cual se llevó a cabo una revisión sistemática de estudios relacionados sobre el tema, con el propósito de tener conocimiento sobre los métodos y técnicas de aprendizaje automático para la detección de duplicidad. Se tomo en consideración las técnicas Levenshtein y FuzzyWuzzy que permiten calcular la distancia de similitud entre dos cadenas de caracteres. Creando un dataset para el preprocesamiento de los datos que serán utilizados para el etiquetado manual, entrenamiento de los modelos desarrollados y recolección de información, una vez implementado las técnicas se procedió a evaluar los resultados obtenidos mediante su precisión y encuestas a los usuarios del sitio, se determinó que las técnicas implementadas tienen una precisión muy efectiva al momento de detectar segmentos de códigos duplicados. Concluyendo que la técnica que es más precisa al momento de identificar la duplicidad en los segmentos de código en las preguntas de SOES es FuzzyWuzzy.
The Stack Overflow site is an online Q&A community on software development and technology issues where its users can post questions and provide their solutions to other users' questions. However, one of the most recurrent problems in the community is publications with duplicate code segments, therefore, the objective of this study is to develop a machine learning model for duplicate code detection for which a systematic review of related studies on the subject was carried out, with the purpose of having knowledge of machine learning methods and techniques for duplicity detection. Consideration was given to the Levenshtein and FuzzyWuzzy techniques that allow the similarity distance between two-character strings to be calculated. By creating a Dataset for the preprocessing of the data that will be used for manual labeling, training of the developed models and collection of information, once the techniques were implemented, the results obtained through their precision and surveys of the users of the site were evaluated, it was determined that the techniques implemented have very effective accuracy when detecting duplicate code segments. Concluding that the technique that is most accurate when identifying duplication in code segments in SOES questions is FuzzyWuzzy.
Descripción
PDF
Palabras clave
Stack Overflow en español, Aprendizaje Automático, Levenshtein, Fuzzywuzzy, Cuasiexperimental, Técnicas, Detección, Duplicidad, Código, Stack Overflow in spanish, Machine Learning, Quasi Experimental, Models, Detection, Duplication
Citación