ALGORITMA PREDIKSI OUTLIER MENGGUNAKAN BORDER SOLVING SET

Abstract: Prediksi outlier penting untuk menjaga validitas data. Algoritma prediksi outlier konvensional memiliki kelemahan dalam hal efisiensi karena harus membandingkan data yang akan diprediksi dengan seluruh data dalam data set. Konsep baru yang melibatkan solving setmuncul sebagai solusi atas permasalahan efisiensi dalam prediksi outlier. Dengan menggunakan solving set, waktu prediksi menjadi lebih cepat tetapi akurasiprediksi menjadi lebih jelek. Dalam penelitian ini dikembangkan suatu algoritma prediksi outlier baru yang efisien dalam melakukan prediksi tetapi tidak mengorbankan akurasi hasil prediksi. Algoritma baru ini merupakan inovasi terhadap konsep solving setyang sudah dikembangkan sebelumnya. Dalam penelitian sebelumnya, solving setdidefinisikan sebagai subset dari data set yang beranggotakan data yang menjadi top n-outlier sebagai representasi data set. Sedangkan dalam penelitian ini, solving setdidefinisikan ulang sebagai subset dari data set yang merupakan data tepi klaster beserta pusat klasternya sebagai representasi data set, atau selanjutnya disebut border solving set. Data tepi klaster dideteksi menggunakan algoritmaBORDER yang telah terbukti dapat mendeteksi data tepi klaster secara efisien, dan algoritma klasterisasi berbasis hirarki digunakan untuk melakukan klasterisasi data tepi yang telah terdeteksi. Selanjutnya, pusat masing-masing klaster dicari dengan menghitung nilai median dari data tepi pada masing-masing klaster. Algoritma Prediksi Outlier dalam penelitian ini dilakukan dengan membandingkan jarakantara data yang akan diprediksi (query data) dengan pusat klaster dan jarak antara query datadengan data tepi klaster yang terdekat. Algoritma Prediksi Outlier pada penelitian ini selanjutnya disebut APOTEK (Algoritma Prediksi Outlier menggunakan TEpi Klaster). Setelah dilakukan beberapa percobaan terhadap beberapa dataset dengan distribusi normal dan seragam, APOTEK terbukti dapat melakukan perbaikan terhadap algoritma prediksi outlier yang sudah ada sebelumnya. Dalam aspek akurasi prediksi, APOTEK berhasil melakukan peningkatan sebesar 5% dibandingkan dengan algoritma prediksi outlier yang dikembangkan oleh Angiulli et. al. (2006), untuk data set berdistribusi normal.
Keywords: AnalisisOutlier; PrediksiOutlier; Data Tepi Klaster; Solving Set; DataMining
Penulis: Barry Nuqoba, Arif Djunaidy
Kode Jurnal: jptinformatikadd140570

Artikel Terkait :