Main Article Content
Abstract
Masalah yang ditemui dalam dataset yang besar adalah adanya duplikasi data dan missing value. Duplikasi terjadi karena ada perbedaan identifikasi antara entitas yang sama dalam dunia nyata misalnya duplikasi data pasien rumah sakit. Solusi dari permasalahan duplikasi adalah dengan melakukan deduplikasi. Deduplikasi dilakukan dengan mengeliminasi data yang memiliki kemiripan. Pendeteksian duplikasi data dilakukan dengan Algoritma Levenshtein distance. Missing value terjadi jika ada nilai dari suatu atribut yang tidak ditemukan. Atribut yang mengandung missing value diganti dengan nilai rata-rata seluruh data dalam setiap atribut. Setelah duplikasi data dan missing value dapat diatasi, kemudian dilakukan klasifikasi untuk mengidentifikasi adanya kesamaan data. Klasifikasi dilakukan dengan tools WEKA menggunakan algoritma Decision Tree dan Naive Bayes. Metode Decision tree menghasilkan akurasi sebesar 99.9988 % sedangkan metode Naive Bayes menghasilkan akurasi 99.9799 %. Akurasi yang diperoleh algoritma Decision Tree memiliki hasil sedikit lebih baik daripada Naive Bayes. Namun demikian, secara umum metode Decision Tree dan Naive Bayes sama-sama memiliki akurasi yang baik dalam melakukan klasifikasi kemiripan data pasien.