Wednesday, January 24, 2018

Compute Confusion matrix

Confusion matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix mengandung informasi yang membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya

TN : merupakan data negatif yang terdeteksi dengan benar
FP : merupakan data negatif namun terdeteksi sebagai data positif
TP: merupakan data positif terdeteksi benar
FN :merupakan data positif terdeteksi sebagai data negatif

Friday, January 12, 2018

Python-Classification with Support Vector Machines

[Teori]

SVM adalah algoritma supervisi untuk melakukan klasifikasi baik linear maupun nonlinear tergantung pada margin maksimalisasi diantara titik suporrt, mapping data dapat ditransformasi kedalam dimensi yang lebih tinggi. SVM dibangun oleh Vapnik dan Cortes pada 1992, SVM telah sukses diaplikasikan kebanyak kasus seperti pengenalan tulisan tangan, prediksi runtun waktu, pengenalan suara
Implementasi Support Vector Machine
Pada tulisan ini akan diberikan mengenai
1.    Cara training SVM
2.    Mengukur kinerja nya
3.    Prediksi hasil klasifikasi dengan menggunakan data asing (data yang belum pernah digunakan untuk pelatihan)
Karena tulisan ini agak cukup panjang, siapkan waktu yang cukup!

Sunday, January 7, 2018

Matlab-Fuzzy C Means Clustering

Teori

Ide dasar dari clustering untuk untuk melakukan prediksi seperti halnya clasification, tapi lebih kepada mencoba untuk melakukan grouping terhadap beberapa item yang mirip sesuai dengan batas kondisi yang ada. Contoh kasus grouping
  1. Grouping tipe dokumen dengan kemiripan bahasa (beberapa dokumen dijadikan 1 group bila ditemukan bahasa yang sama)
  2. Grouping artikel/berita yang sama

Saturday, January 6, 2018

Matlab Metode Data Mining (K-NN)

Menurut wikipedia diterangkan sebagai berikut
Algoritma k-nearest neighbor (k-NN atau KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut.

Data pembelajaran diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi data pembelajaran. Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titk tersebut. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan jarak Euclidean.
https://id.wikipedia.org/wiki/KNN
Anda bisa mengunjungi link berikut mengenai perhitungan dan langkah-langkahnya