Detección de preguntas duplicadas en sitios Stack Overflow (Español e Inglés).

Título de la revista
ISSN de la revista
Título del volumen
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
Stack Overflow es una comunidad de preguntas y respuestas y son las preferidas de los programadores para resolver sus dudas. El sitio Stack Overflow en español se inició como alternativa al sitio en inglés pensado para ser utilizado por personas hispanohablantes. Sin embargo, muchas veces sus usuarios prefieren realizar sus preguntas también en el sitio inglés con el fin de obtener una respuesta de manera más rápida creando preguntas duplicadas en ambos sitios. La tarea de detectar estas preguntas duplicadas no se realiza ni siquiera por los moderadores de los sitios por lo que algunos investigadores han intentado abordar el problema utilizando técnicas de procesamiento qué lenguaje natural y aprendizaje automático. En este proyecto se realizará un análisis de la literatura mediante una revisión sistemática para determinar cuáles son las herramientas y técnicas más utilizadas por los investigadores. Luego se extraerán los datos de los sitios a fin de crear un dataset con pares de preguntas que serán utilizadas para los experimentos. Como experimentos se utilizarán las técnicas y herramientas analizadas en la revisión sistemática para desarrollar algoritmos cuyos resultados serán contrastados mediante un juicio externo para determinar si el rendimiento del mismo es suficiente para comprobar la hipótesis planteada, es decir, si la aplicación de técnicas de aprendizaje automático y procesamiento del lenguaje natural ayuda en la detección de preguntas duplicadas entre los sitios Stack Overflow y Stack Overflow en español.
Stack Overflow is a community of questions and answers and is a favorite among programmers to solve their doubts. The Stack Overflow in spanish site was started as an alternative to the english site intended to be used by spanish speakers. However, many times its users prefer to ask their questions also in the english site in order to get an answer in a faster way creating duplicate questions between both sites. The task of detecting these duplicate questions is not performed even by the moderators of the sites so some researchers have tried to address the problem using natural language processing and machine learning techniques. In this project, a literature analysis will be performed through a systematic review to determine which tools and techniques are most commonly used by researchers. Then, data will be extracted from the sites in order to create a dataset with pairs of questions that will be used for the experiments. As experiments, the techniques and tools analyzed in the systematic review will be used to develop algorithms whose results will be contrasted through an external trial to determine whether the performance of the algorithm is enough to test the hypothesis, that is, whether the application of machine learning, and natural language processing techniques helps in the detection of duplicate questions between the Stack Overflow and Stack Overflow in spanish sites.
Palabras clave
Stack Overflow, Preguntas duplicadas, Aprendizaje Automatico, Procesamiento de Lenguaje Natural, Multilingüe, Duplicate questions, Machine Learning, Natural Language Processing, Multilingual