Rabu, 15 November 2017

Univariate feature for feature selection

Feature selection merupakan teknik yang pra pengolahan data yang bertujuan untuk
There are in general two reasons why feature selection is used:




  1. Reducing the number of features, to reduce overfitting and improve the generalization of models.
  2. To gain a better understanding of the features and their relationship to the response variables.
Mengurangi jumlah fitur/paramater, serta menaikan generalisasi model
Mendapatkan pemahaman dari fitur dan hubungan terhadap variabelnya
Ada banyak metode yang bisa digunakan yaitu
  1. Univariate feature selection
  2. Pearson Correlation
  3. Mutual information and maximal information coefficient (MIC)
  4. Recursive Feature Elimination
  5. Principal Component Analysis
  6. Discriminant analyst
Penulis sajikan data berikut yang terdiri dari 3 paramater/ciri fitur yang dikategorikan 2 grup yaitu 1 dan 2

 Kita bisa lakukan ploting berikut


Terlihat volume terjadi overfitting sehingga  harus di remove karena tidak signifikan nilanya, tapi bagaimana bila ditemui banyak paramater dan ribuan data?

Maka penulis menggunakan Univariate Selection
http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

Dengan menggunakan metode  diatas, penulis menggunakan data tabel diatas untuk 3 paramater yang menghasilkan score berikut



PARAMATER : 
['volume', 'warna', 'berat']
SCORE :  [  4.745e-31   1.160e+00   2.574e+00]
PARAMETER TERSELEKSI: 
warna    True
berat    True
Name: 0, dtype: bool



Terlihat volume sudah terseleksi sehingga didapatkan warna dan berat karena score volume < 1, hasilnya sesuai dengan grafik diatas, yang menyatakan bahwa terjadi overlapping untuk paramater volume
Posting Komentar