Show simple item record

dc.creator De Armas, Adrián
dc.date.accessioned 2015-10-06T20:26:29Z
dc.date.available 2015-10-06T20:26:29Z
dc.date.issued 2015
dc.identifier.uri http://hdl.handle.net/123456789/2520
dc.description.abstract Este trabajo final se trata sobre la detección de outliers en grandes bases de datos. Una de las definiciones más citadas en la bibliografía respecto a lo que es un outlier es la enunciada por David Hawkins en sus monografías sobre estadística y probabilidad aplicadas del año 1980: “Un outlier es una observación que se desvía tanto de otras observaciones que despierta la sospecha de haber sido generado por un mecanismo diferente” [Hawkings, 1980]. Con el objetivo de proponer un algoritmo que permita identificar eficaz y eficientemente outliers en grandes bases de datos se seleccionó la aproximación por celdas propuesta por Edwin Knorr y Raymond NG en 1998 en el trabajo “Algorithms for Mining Distance-Based Outliers in Large Datasets” [Knorr y otros, 1998]. Este método puede procesar de forma muy eficiente hasta 4 dimensiones (5 en algunos casos) pero luego decrece su rendimiento e incluso puede imposibilitarse su ejecución. Se implementaron distintas versiones del mismo algoritmo, cada una pensada para un escenario diferente, manteniendo la eficacia del 100% de detección de outliers basados en distancia. Con el fin de aumentar la eficiencia de la implementación del algoritmo, se propone la detección probabilística de outliers basada en la aproximación por celdas que mejora la eficiencia a costa de la reducción de la eficacia manifestada por la detección de falsos positivos. Los resultados de laboratorio arrojan que el porcentaje de disminución de la eficacia del algoritmo es siempre menor que el porcentaje de aumento de la eficiencia. Los experimentos se realizaron sobre datos sintéticos y, finalmente, se probó el algoritmo con datos reales de todos los vuelos de cabotaje en USA entre los años 1998 y 2003. es
dc.format.extent 275 p. es
dc.language.iso es es
dc.publisher Universidad Argentina de la Empresa es
dc.title Detección de outliers en grandes bases de datos es
dc.type Thesis es
uade.facultad Business School es
uade.carrera Maestría en Tecnología Informática y de Comunicaciones (TIC) es
uade.contributor.tutor Kuna, Horacio
uade.contributor.tutor Rossi, Bibiana D.
uade.subject.descriptor Informática es
uade.subject.descriptor Bases de Datos es
uade.subject.descriptor Algoritmos es
uade.subject.descriptor Outliers es
uade.autor.legajo 101230


Access

This item appears in the following Collection(s)

 

Show simple item record

 
 

Lima 775 - C1073AAO
Ciudad Autónoma de Buenos Aires

 

Sede Recoleta: Libertad 1340 - C1016ABB
Ciudad Autónoma de Buenos Aires

 

Campus Costa Argentina: Av. Intermédanos Sur 776
Pinamar, Provincia de Buenos Aires

 
 
 

Carreras acreditadas nacional e internacionalmente