不均衡データの分析

不均衡データにおけるsampling-Qiita

を読んで.

「algorithm-level approaches」というのは要は回帰モデルを立てて,って事だろうか.sklearn.svm.SVCならclass_weight引数で正例と負例にかける重み付けの値を指定できる(class_weight={1: 10})ので,簡単に実装できる.やり方も簡単で,多い方を1とした時に,少ない方にその比率を掛けて調整してあげるだけ. “balanced” modeにしてあげれば,勝手に調整してくれる(「class_weight=’balanced’ instead of deprecated class_weight=’auto’」多分,0.17.0辺りでそうなったと思うので,古い記事を参考にする場合は注意しないといけない).Scikit-learnのページには,class weightの話も書いてあるので,素晴らしい.ランダムフォレストにも”balanced”があるけど(class_weight=”balanced”),使った事が無いのでよく分からない(データを渡す時に明示的にサンプルウェイトを与える事もできる).やっぱり僕は,SVM.

参考:
[1] 不均衡データをSVMでクラス分類するにはどうすれば良いか-六本木で働くデータサイエンティストのブログ
[2] 不均衡データのクラス分類-SlideShare
[3] 不均衡なデータの分類問題について with Python-かものはしの分析ブログ

広告
カテゴリー: 未分類 パーマリンク

不均衡データの分析 への1件のフィードバック

  1. ピンバック: TensorFlowで線形分類器による分類 | 粉末@それは風のように (日記)

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中