Duplicidad de código en Stack Overflow en español.

Gilces León, Maikol Javier; Pin Cevallos, Christian Fernando

Duplicidad de código en Stack Overflow en español.

Archivos

B-CISC-PTG-1899-2021 Gilces León Maikol Javier - Pin Cevallos Christian Fernando.pdf(2.82 MB)

Fecha

2021-03

Autores

Gilces León, Maikol Javier

Pin Cevallos, Christian Fernando

Editor

Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.

Resumen

El sitio Stack Overflow en español es una comunidad en línea de preguntas y respuestas sobre desarrollo de software y temas tecnológicos donde sus usuarios pueden publicar interrogantes y aportar sus soluciones a las preguntas de otros usuarios. No obstante, uno de los problemas más recurrente que existe en la comunidad son las publicaciones con segmentos de código duplicado, por tanto, el objetivo de este estudio es desarrollar un modelo de aprendizaje automático para la detección de código duplicado para la cual se llevó a cabo una revisión sistemática de estudios relacionados sobre el tema, con el propósito de tener conocimiento sobre los métodos y técnicas de aprendizaje automático para la detección de duplicidad. Se tomo en consideración las técnicas Levenshtein y FuzzyWuzzy que permiten calcular la distancia de similitud entre dos cadenas de caracteres. Creando un dataset para el preprocesamiento de los datos que serán utilizados para el etiquetado manual, entrenamiento de los modelos desarrollados y recolección de información, una vez implementado las técnicas se procedió a evaluar los resultados obtenidos mediante su precisión y encuestas a los usuarios del sitio, se determinó que las técnicas implementadas tienen una precisión muy efectiva al momento de detectar segmentos de códigos duplicados. Concluyendo que la técnica que es más precisa al momento de identificar la duplicidad en los segmentos de código en las preguntas de SOES es FuzzyWuzzy.
The Stack Overflow site is an online Q&A community on software development and technology issues where its users can post questions and provide their solutions to other users' questions. However, one of the most recurrent problems in the community is publications with duplicate code segments, therefore, the objective of this study is to develop a machine learning model for duplicate code detection for which a systematic review of related studies on the subject was carried out, with the purpose of having knowledge of machine learning methods and techniques for duplicity detection. Consideration was given to the Levenshtein and FuzzyWuzzy techniques that allow the similarity distance between two-character strings to be calculated. By creating a Dataset for the preprocessing of the data that will be used for manual labeling, training of the developed models and collection of information, once the techniques were implemented, the results obtained through their precision and surveys of the users of the site were evaluated, it was determined that the techniques implemented have very effective accuracy when detecting duplicate code segments. Concluding that the technique that is most accurate when identifying duplication in code segments in SOES questions is FuzzyWuzzy.

Descripción

PDF

Palabras clave

Stack Overflow en español, Aprendizaje Automático, Levenshtein, Fuzzywuzzy, Cuasiexperimental, Técnicas, Detección, Duplicidad, Código, Stack Overflow in spanish, Machine Learning, Quasi Experimental, Models, Detection, Duplication

URI

http://repositorio.ug.edu.ec/handle/redug/52648

Colecciones

Proyectos - Ingeniería en Sistemas Computacionales

Página completa del ítem