“In the old days, companies
sent the same marketing campaigns to all of their customers. Later, marketers
began to understand that even simple grouping of their customers allowed them
to run more relevant, effective and profitable campaigns. More recently,
sophisticated marketers and retention experts – particularly in Internet
companies – have discovered that applying the latest technologies to this
challenge delivers far more targeted (and profitable) campaigns.”
Para marketing menggunakan teknik RFM (http://informatika.web.id/metode-klasifikasi-fuzzy-rfm.htm) dalam melakukan
clustering, tapi pertanyaan penting sebagai berikut:
Proses clustering
dalam algoritma fuzzy
clustering selalu mencari solusi terbaik untuk parameter yang telah
didefinisikan. Namun solusi terbaik ini belum tentu dapat menentukan deskripsi
terbaik dari struktur data. Untuk menentukan jumlah cluster yang paling optimal dan dapat memvalidasi apakah partisi
fuzzy yang diterapkan dalam
proses clustering sesuai dengan
data, digunakan indeks pengukuran validitas.
Beberapa metode Pengukuran Validitas Cluster
Berikut ini
adalah beberapa metode pengukuran validitas cluster yang umumnya
digunakan untuk algoritma fuzzy clustering(Wu dan Yang, 2005) :
Partition Coefficient
Partition Coefficient (PC) merupakan metode yang mengukur jumlah cluster yang
mengalami overlap. Indeks PC mengukur validitas cluster dengan
rumus sebagai berikut
Dimana :
c
= jumlah cluster
N
= jumlah data
μij
= derajat keanggotaan data ke-j pada cluster ke-i
PC(c) = nilai indeks PC pada cluster
ke-c
Pada umumnya
jumlah cluster yang paling optimal ditentukan dari nilai PC yang paling
besar
Modified Partition Coefficient
Partition Coefficient cenderung mengalami perubahan yang monoton
terhadap beragam nilai c (jumlah cluster). Modifikasi dari indeks PC (Modified
Partition Coefficient/MPC) dapat mengurangi perubahan yang monoton
tersebut. dan didefinisikan dengan rumus berikut:

Dimana :
c
= jumlah cluster
MPC(c)
= nilai indeks MPC pada cluster ke-c
Nilai MPC berada dalam batas 0 ≤ PC(c) ≤ 1.
Pada umumnya jumlah cluster yang optimal ditentukan dari nilai MPC yang
paling besar
Classification Entropy
Classification Entropy (CE) merupakan metode yang mengukur
tingkat kekaburan (fuzzyness) dari partisi cluster. Indeks CE
mengukur validitas cluster dengan rumus sebagai berikut :

Dimana :
c
= jumlah cluster
N
= jumlah data
μij
= derajat keanggotaan data ke-j pada cluster ke-i
CE(c) = nilai indeks CE pada cluster
ke-c
Nilai CE berada dalam batas 0 ≤ CE(c) ≤ log2c.
Pada umumnya jumlah cluster yang optimal ditentukan dari nilai PE yang
paling kecil
Biar tidak semakin rumit, penulis akan menguji ke 3 metode diatas untuk
melakukan clustering pada suatu data berikut
Bila kita clustering kan ada menghasilkan 2 keputusan yaitu 2 dan 4,
kita akan visualisasikan
Cukup membingungkan bukan???
Apakah 2 atau 4??
Mari kita uji yang lainnya
Hasilnya yaitu ada 2 dan 6, mari kita visualisasikan
Semakin pusing, seperti tidak ada yang pasti, tapi itu semua kembali
kepada anda
PE untuk mengukur jumlah cluster yang mengalami overlap
Dimodifikasi
menjadi MPC untuk dapat mengurangi perubahan yang
monoton pada PE
CE
untuk mengukur tingkat kekaburan (fuzzyness)
dari partisi cluster.
Penulis dalam melakukan simulasi diatas, menggunakan matlab
Referensi :
No comments:
Post a Comment