Análisis de trayectorias vehiculares GPS para evaluar su calidad de agrupamiento utilizando algoritmos clustering de minería de datos.

No hay miniatura disponible
Fecha
2018
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería En Sistemas Computacionales
Resumen
El gran volumen de datos espaciales generados por diversos dispositivos: Smartphone, GPS y sensores etc. engloban patrones atractivos en datos, convirtiéndose en un tema interesante para investigadores motivados a encontrar la mejor técnica clustering al tratar datos de trayectoria GPS, ya que en existencia se observan inconvenientes en las grandes ciudades como el tráfico vehicular. Por eso, se obtienen Bases de datos científicas que contienen recorridos vehiculares en diferentes lugares: California, China y Beijing. En esta investigación se evalúa la calidad de agrupamiento de los algoritmos identificados: Kmeans y DBscan. Aquellos utilizan datos de la tabla California para determinar, bajo ciertas condiciones, cuál de los dos algoritmos obtiene mejor agrupación de clúster. En la implementación se hicieron cambios para que el algoritmo de Kmeans consiguiera analizar los datos de trayectoria del GPS usando la medición de similitud de Hausdorff. Para Medir la calidad de agrupamiento de los algoritmos, se utiliza la métrica de Silhouette. Como resultado, el algoritmo DBscan es el de mejor calidad de agrupamiento, sin embargo, el algoritmo Kmeans obtiene resultados que están dentro de lo admitido por la métrica y facilita la identificación de las rutas de congestión.
The large volume of spatial data generated by various devices: Smartphone, GPS and sensors etc. encompass attractive patterns in data, becoming an interesting topic for researchers motivated to find the best clustering technique when processing GPS trajectory data, since in existence there are drawbacks in large cities such as vehicular traffic. For this reason, scientific databases are obtained that contain vehicle routes in different places: California, China and Beijing. This research evaluates the quality of grouping of the identified algorithms: Kmeans and DBscan. They use data from the California table to determine, under certain conditions, which of the two algorithms gets the best cluster grouping. In the implementation changes were made so that the Kmeans algorithm could analyze the GPS trajectory data using the similarity measurement from Hausdorff. The Silhouette metric is used to measure the grouping quality of the algorithms. As a result, the DBscan algorithm is the best grouping quality, however, the Kmeans algorithm obtains results that are within metric support and facilitates the identification of congestion paths.
Descripción
PDF
Palabras clave
Métrica, Silhouette, k-means, DBscan, Clustering, GPS
Citación