Pengertian Clustering dan Perannya Dalam Aplikasi Data Mining

Pengertian Clustering

Clustering adalah membagi data ke dalam grup-grup yang mempunyai obyek yang karakteristiknya sama ([1]). Garcia-Molina et al. ([2]) menyatakan clustering adalah mengelompokkan item data ke dalam sejumlah kecil grup sedemikian sehingga masing-masing grup mempunyai sesuatu persamaan yang esensial.

Peran Clustering dalam Aplikasi Data Mining

Clustering memegang peranan penting dalam aplikasi data mining, misalnya eksplorasi data ilmu pengetahuan, pengaksesan informasi dan text mining, aplikasi basis data spasial, dan analisis web. Clustering diterapkan dalam mesin pencari di Internet. Web mesin pencari akan mencari ratusan dokumen yang cocok dengan kata kunci yang dimasukkan. Dokumen-dokumen tersebut dikelompokkan dalam cluster-cluster sesuai dengan katakata yang digunakan.

Kategori clustering

Tan, dkk.([4]) membagi clustering dalam dua kelompok, yaitu hierarchical and partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek-obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang seperti sebuah pohon berjenjang (hirarki).

William ([8]) membagi algoritma clustering ke dalam kelompok besar seperti berikut:

  1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.
  2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria.
  3. Density-based: pembentukan cluster berdasarkan pada koneksi dan fungsi densitas.
  4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple-level granularity
  5. Model-based: sebuah model dianggap sebagai hipotesa untuk masingmasing cluster dan model yang baik dipilih diantara model hipotesa tersebut.

Algoritma K-Means

Algoritma K-Means adalah algoritma clustering yang paling popular dan banyak digunakan dalam dunia industri [1]. Algoritma ini disusun atas dasar ide yang sederhana. Ada awalnya ditentukan berapa cluster yang akan dibentuk. Sebarang obyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagai titik tengah (centroid point) cluster. Algoritma K-Means selanjutnya akan melakukan pengulangan langkah-langkah berikut sampai terjadi kestabilan (tidak ada obyek yang dapat dipindahkan):

  1. menentukan koordinat titik tengah setiap cluster,
  2. menentukan jarak setiap obyek terhadap koordinat titik tengah,
  3. mengelompokkan obyek-obyek tersebut berdasarkan pada jarak minimumnya.

Sumber :

https://www.researchgate.net/profile/Sri_Andayani3/publication/267856308_K-Pembentukan_cluster_dalam_Knowledge_Discovery_in_Database_dengan_Algoritma_K-Means/links/575a4e2708aed884620b31dc.pdf