Kamis, 31 Desember 2015

how to measurement validity value



Perhatikan contoh plot 2 dimensi dari sebuah data berikut, secara visual, kita bisa melihat adanya 3 cluster, nah kita bisa membuat 3 class menggunakan algoritma Kmeans atau Fuzzy Clustering Means (FCM)


Menghasilkan berikut


Lihat! Dengan 3 clustering menggunakan FCM sudah ter cluster dengan baik, akan tetapi itu hanya kasus yang kecil, bilamana terdiri dari ribuan data dan multidimensi, tentu akan sulit menentukan jumlah cluster yang optimal!
Pada kasus diatas, misalkan kita nekat untuk melakukan clustering menjadi 5 cluster!
 Apa yang terjadi?
 

Anda bisa melihat diatas, tetap bisa dilakukan! Akan tetapi bagaiamana menghitung validitas jumlah clustering paling optimal?
Indeks Validitas Silhouette
Anda bisa menggunakan Silhouette Value

 
Bilamana menghasilkan S yang bernilai negatif, maka jumlah cluster tersebut kurang optimal
Penulis membandingkan hasil S dari 2 clustering yaitu 3 dan 5

 
Anda bisa melihat bukan? Silhouette Value  cukup mudah digunakan untuk menghitung jumlah cluster yang optimal!
Ditandai dengan adanya hasil minus pada cluster 5, berbeda dengan cluster 3

Posting Komentar