Resumen:
Este trabajo final se trata sobre la detección de outliers en grandes bases de datos.
Una de las definiciones más citadas en la bibliografía respecto a lo que es un outlier es la enunciada por David Hawkins en sus monografías sobre estadística y probabilidad aplicadas del año 1980: “Un outlier es una observación que se desvía tanto de otras observaciones que despierta la sospecha de haber sido generado por un mecanismo diferente” [Hawkings, 1980]. Con el objetivo de proponer un algoritmo que permita identificar eficaz y eficientemente outliers en grandes bases de datos se seleccionó la aproximación por celdas propuesta por Edwin Knorr y Raymond NG en 1998 en el trabajo “Algorithms for Mining Distance-Based Outliers in Large Datasets” [Knorr y otros, 1998]. Este método puede procesar de forma muy eficiente hasta 4 dimensiones (5 en algunos casos) pero luego decrece su rendimiento e incluso puede imposibilitarse su ejecución.
Se implementaron distintas versiones del mismo algoritmo, cada una pensada para un escenario diferente, manteniendo la eficacia del 100% de detección de outliers basados en distancia. Con el fin de aumentar la eficiencia de la implementación del algoritmo, se propone la detección probabilística de outliers basada en la aproximación por celdas que mejora la eficiencia a costa de la reducción de la eficacia manifestada por la detección de falsos positivos. Los resultados de laboratorio arrojan que el porcentaje de disminución de la eficacia del algoritmo es siempre menor que el porcentaje de aumento de la eficiencia.
Los experimentos se realizaron sobre datos sintéticos y, finalmente, se probó el algoritmo con datos reales de todos los vuelos de cabotaje en USA entre los años 1998 y 2003.