Detección de outliers en grandes bases de datos

De Armas, Adrián

dc.creator	De Armas, Adrián
dc.date.accessioned	2015-10-06T20:26:29Z
dc.date.available	2015-10-06T20:26:29Z
dc.date.issued	2015
dc.identifier.uri	http://hdl.handle.net/123456789/2520
dc.description.abstract	Este trabajo final se trata sobre la detección de outliers en grandes bases de datos. Una de las definiciones más citadas en la bibliografía respecto a lo que es un outlier es la enunciada por David Hawkins en sus monografías sobre estadística y probabilidad aplicadas del año 1980: “Un outlier es una observación que se desvía tanto de otras observaciones que despierta la sospecha de haber sido generado por un mecanismo diferente” [Hawkings, 1980]. Con el objetivo de proponer un algoritmo que permita identificar eficaz y eficientemente outliers en grandes bases de datos se seleccionó la aproximación por celdas propuesta por Edwin Knorr y Raymond NG en 1998 en el trabajo “Algorithms for Mining Distance-Based Outliers in Large Datasets” [Knorr y otros, 1998]. Este método puede procesar de forma muy eficiente hasta 4 dimensiones (5 en algunos casos) pero luego decrece su rendimiento e incluso puede imposibilitarse su ejecución. Se implementaron distintas versiones del mismo algoritmo, cada una pensada para un escenario diferente, manteniendo la eficacia del 100% de detección de outliers basados en distancia. Con el fin de aumentar la eficiencia de la implementación del algoritmo, se propone la detección probabilística de outliers basada en la aproximación por celdas que mejora la eficiencia a costa de la reducción de la eficacia manifestada por la detección de falsos positivos. Los resultados de laboratorio arrojan que el porcentaje de disminución de la eficacia del algoritmo es siempre menor que el porcentaje de aumento de la eficiencia. Los experimentos se realizaron sobre datos sintéticos y, finalmente, se probó el algoritmo con datos reales de todos los vuelos de cabotaje en USA entre los años 1998 y 2003.	es
dc.format.extent	275 p.	es
dc.language.iso	es	es
dc.publisher	Universidad Argentina de la Empresa	es
dc.title	Detección de outliers en grandes bases de datos	es
dc.type	Thesis	es
uade.facultad	Business School	es
uade.carrera	Maestría en Tecnología Informática y de Comunicaciones (TIC)	es
uade.contributor.tutor	Kuna, Horacio
uade.contributor.tutor	Rossi, Bibiana D.
uade.subject.descriptor	Informática	es
uade.subject.descriptor	Bases de Datos	es
uade.subject.descriptor	Algoritmos	es
uade.subject.descriptor	Outliers	es
uade.autor.legajo	101230