Main Article Content

Abstract

Tujuan penelitian ini adalah membandingkan beberapa algoritma pengelompokan non-hierarki : K-Means, Bisecting K-Means, K-Median dan K-Medoid untuk data dokumen. Perbandingan dilakukan dengan menggunakan Fmeasure dan akurasi sebagai ukuran kualitas ketepatan hasil pengelompokan. Dalam penelitian ini data yang dipakai untuk eksperimen adalah artikel media masa yang berbahasa Indonesia yang diambil dari website Kompas (www.kompas.com) dan Detik (www.detik.com). Tahapan yang digunakan dalam penelitian ini adalah sebagai berikut : Tahap pertama adalah pengambilan dan pemrosesan data. Sebelum dilakukan pengelompokan data, data dokumen terlebih dahulu harus melalui tahap pra proses, yaitu Detagging, Stopword removal, dan Stemming. Hal ini dimaksudkan agar kata-kata yang digunakan untuk membentuk term-document matrix hanyalah kata-kata khusus yang dapat merepresentasikan dokumen yang ada. Langkah selanjutnya adalah penentuan fitur dan penyusunan term-document matrix. Jumlah fitur yang digunakan untuk pengelompokan dinyatakan dengan persentase dari total fitur. Langkah terakhir : melakukan pengelompokan data set dokumen dengan menggunakan algoritma K-Mean, Bisecting K-Mean, K-Median, dan K-Medoid dengan menggunakan jarak Euclid dan cosinus. Dari hasil eksperimen dapat diambil kesimpulan bahwa algoritma pengelompokan yang memberikan hasil yang terbaik adalah K-Mean. Disamping itu Bi-secting K-Mean juga menghasilkan pengelompokan yang memuaskan. Selain itu jarak cosinus juga memberikan hasil yang paling baik dibandingkan dengan jarak Euclid. Dari hasil ekperimen, hanya dengan menggunakan 10% sampai 30% fitur yang digunakan telah menghasilkan pengelompokan yang memuaskan.

Article Details