There are in general two reasons why feature selection is used:
- Reducing the number of features, to reduce overfitting and improve the generalization of models.
- To gain a better understanding of the features and their relationship to the response variables.
Mendapatkan pemahaman dari fitur dan hubungan terhadap variabelnya
Ada banyak metode yang bisa digunakan yaitu
- Univariate feature selection
- Pearson Correlation
- Mutual information and maximal information coefficient (MIC)
- Recursive Feature Elimination
- Principal Component Analysis
- Discriminant analyst
Kita bisa lakukan ploting berikut
Terlihat volume terjadi overfitting sehingga harus di remove karena tidak signifikan nilanya, tapi bagaimana bila ditemui banyak paramater dan ribuan data?
Maka penulis menggunakan Univariate Selection
http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html
Dengan menggunakan metode diatas, penulis menggunakan data tabel diatas untuk 3 paramater yang menghasilkan score berikut
PARAMATER :
['volume', 'warna', 'berat']
SCORE : [ 4.745e-31 1.160e+00 2.574e+00]
PARAMETER TERSELEKSI:
warna True
berat True
Name: 0, dtype: bool
Terlihat volume sudah terseleksi sehingga didapatkan warna dan berat karena score volume < 1, hasilnya sesuai dengan grafik diatas, yang menyatakan bahwa terjadi overlapping untuk paramater volume
No comments:
Post a Comment