Jumat, 12 Februari 2016

Menguji Validitas Cluster



In the old days, companies sent the same marketing campaigns to all of their customers. Later, marketers began to understand that even simple grouping of their customers allowed them to run more relevant, effective and profitable campaigns. More recently, sophisticated marketers and retention experts – particularly in Internet companies – have discovered that applying the latest technologies to this challenge delivers far more targeted (and profitable) campaigns.

Para marketing menggunakan teknik RFM (http://informatika.web.id/metode-klasifikasi-fuzzy-rfm.htm) dalam melakukan clustering, tapi pertanyaan penting sebagai berikut:

Proses clustering dalam algoritma fuzzy clustering selalu mencari solusi terbaik untuk parameter yang telah didefinisikan. Namun solusi terbaik ini belum tentu dapat menentukan deskripsi terbaik dari struktur data. Untuk menentukan jumlah cluster yang paling optimal dan dapat memvalidasi apakah partisi fuzzy yang diterapkan dalam proses clustering sesuai dengan data, digunakan indeks pengukuran validitas.


Beberapa metode Pengukuran Validitas Cluster

Berikut ini adalah beberapa metode pengukuran validitas cluster yang umumnya digunakan untuk algoritma fuzzy clustering(Wu dan Yang, 2005) :

Partition Coefficient

Partition Coefficient (PC) merupakan metode yang mengukur jumlah cluster yang mengalami overlap. Indeks PC mengukur validitas cluster dengan rumus sebagai berikut 


Dimana :
c          = jumlah cluster
N         = jumlah data
μij        = derajat keanggotaan data ke-j pada cluster ke-i
PC(c)   = nilai indeks PC pada cluster ke-c
Pada umumnya jumlah cluster yang paling optimal ditentukan dari nilai PC yang paling besar

Modified Partition Coefficient

Partition  Coefficient cenderung mengalami perubahan yang monoton terhadap beragam nilai c (jumlah cluster). Modifikasi dari indeks PC (Modified Partition Coefficient/MPC) dapat mengurangi perubahan yang monoton tersebut. dan didefinisikan dengan rumus berikut:
 


Dimana :
c                      = jumlah cluster
MPC(c)           = nilai indeks MPC pada cluster ke-c
Nilai MPC berada dalam batas 0 ≤ PC(c) ≤ 1. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai MPC yang paling besar

Classification Entropy

Classification Entropy (CE) merupakan metode yang mengukur tingkat kekaburan (fuzzyness) dari partisi cluster. Indeks CE mengukur validitas cluster dengan rumus sebagai berikut :



Dimana :
c          = jumlah cluster
N         = jumlah data
μij        = derajat keanggotaan data ke-j pada cluster ke-i
CE(c)   = nilai indeks CE pada cluster ke-c
Nilai CE berada dalam batas 0 ≤ CE(c) ≤ log2c. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai PE yang paling kecil

Biar tidak semakin rumit, penulis akan menguji ke 3 metode diatas untuk melakukan clustering pada suatu data berikut






Bila kita clustering kan ada menghasilkan 2 keputusan yaitu 2 dan 4, kita akan visualisasikan





Cukup membingungkan bukan???
Apakah 2 atau 4??
Mari kita uji yang lainnya





Hasilnya yaitu ada 2 dan 6, mari kita visualisasikan





Semakin pusing, seperti tidak ada yang pasti, tapi itu semua kembali kepada anda
PE untuk mengukur jumlah cluster yang mengalami overlap
Dimodifikasi menjadi MPC untuk dapat mengurangi perubahan yang monoton pada PE
CE untuk mengukur tingkat kekaburan (fuzzyness) dari partisi cluster.


Penulis dalam melakukan simulasi diatas, menggunakan matlab
Referensi :






Posting Komentar