Detección de preguntas duplicadas en sitios Stack Overflow (Español e Inglés).

dc.contributor.authorChica Miranda, Kerly Michell
dc.contributor.authorMoreira Pincay, Bryan Rolando
dc.contributor.tutorBotto Tobar, Miguel Ángel
dc.date.accessioned2021-05-17T02:50:55Z
dc.date.available2021-05-17T02:50:55Z
dc.date.issued2021-03
dc.descriptionPDFes_ES
dc.description.abstractStack Overflow es una comunidad de preguntas y respuestas y son las preferidas de los programadores para resolver sus dudas. El sitio Stack Overflow en español se inició como alternativa al sitio en inglés pensado para ser utilizado por personas hispanohablantes. Sin embargo, muchas veces sus usuarios prefieren realizar sus preguntas también en el sitio inglés con el fin de obtener una respuesta de manera más rápida creando preguntas duplicadas en ambos sitios. La tarea de detectar estas preguntas duplicadas no se realiza ni siquiera por los moderadores de los sitios por lo que algunos investigadores han intentado abordar el problema utilizando técnicas de procesamiento qué lenguaje natural y aprendizaje automático. En este proyecto se realizará un análisis de la literatura mediante una revisión sistemática para determinar cuáles son las herramientas y técnicas más utilizadas por los investigadores. Luego se extraerán los datos de los sitios a fin de crear un dataset con pares de preguntas que serán utilizadas para los experimentos. Como experimentos se utilizarán las técnicas y herramientas analizadas en la revisión sistemática para desarrollar algoritmos cuyos resultados serán contrastados mediante un juicio externo para determinar si el rendimiento del mismo es suficiente para comprobar la hipótesis planteada, es decir, si la aplicación de técnicas de aprendizaje automático y procesamiento del lenguaje natural ayuda en la detección de preguntas duplicadas entre los sitios Stack Overflow y Stack Overflow en español.es_ES
dc.description.abstractStack Overflow is a community of questions and answers and is a favorite among programmers to solve their doubts. The Stack Overflow in spanish site was started as an alternative to the english site intended to be used by spanish speakers. However, many times its users prefer to ask their questions also in the english site in order to get an answer in a faster way creating duplicate questions between both sites. The task of detecting these duplicate questions is not performed even by the moderators of the sites so some researchers have tried to address the problem using natural language processing and machine learning techniques. In this project, a literature analysis will be performed through a systematic review to determine which tools and techniques are most commonly used by researchers. Then, data will be extracted from the sites in order to create a dataset with pairs of questions that will be used for the experiments. As experiments, the techniques and tools analyzed in the systematic review will be used to develop algorithms whose results will be contrasted through an external trial to determine whether the performance of the algorithm is enough to test the hypothesis, that is, whether the application of machine learning, and natural language processing techniques helps in the detection of duplicate questions between the Stack Overflow and Stack Overflow in spanish sites.es_ES
dc.identifier.urihttp://repositorio.ug.edu.ec/handle/redug/52666
dc.language.isospaes_ES
dc.publisherUniversidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.es_ES
dc.rightsopenAccesses_ES
dc.subjectStack Overflowes_ES
dc.subjectPreguntas duplicadases_ES
dc.subjectAprendizaje Automaticoes_ES
dc.subjectProcesamiento de Lenguaje Naturales_ES
dc.subjectMultilingüees_ES
dc.subjectDuplicate questionses_ES
dc.subjectMachine Learninges_ES
dc.subjectNatural Language Processinges_ES
dc.subjectMultilinguales_ES
dc.titleDetección de preguntas duplicadas en sitios Stack Overflow (Español e Inglés).es_ES
dc.typebachelorThesises_ES
Archivos
Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
B-CISC-PTG-1917-2021 Chica Miranda Kerly Michell - Moreira Pincay Bryan Rolando.pdf
Tamaño:
4.75 MB
Formato:
Adobe Portable Document Format
Descripción:
UG-FCMF-B-CISC-1917 -2021
Bloque de licencias
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
902 B
Formato:
Item-specific license agreed upon to submission
Descripción: