マルチラベル分類問題

Python Machine Learning, what kind of data is this? [on hold] – StackOverflow

ちょっと面白い.

方法としては,まず,一番簡単なのは,各スクール毎に2値境界を求める.線形SVM,或いはロジスティック回帰モデルを立てる.各スクール毎の分類問題として考えても良い.ワンクラス問題として解けば(scikitlearnのone class SVMやIsolationForest),合格と不合格を判別できる(オーバーキル感はあるけど).

ひっくるめて分析したい場合,物理/経済の点数からスクールの合格/不合格を判定する時,もし分類問題として解こうと思うと,各スクールは相互に排他的な関係(どれか1校に振るって終わり)ではないので,単に多クラス分類では解けない.この時,マルチラベル分類問題として解く事ができる.

マルチラベル分類はやった事がないけど,

http://scikit-learn.org/stable/modules/multiclass.html1.12. Multiclass and multilabel algorithms – scikitlearn

Multilabel classification – scikitlearn

from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import LinearSVC

OneVsRestClassifier(LinearSVC())

でマルチラベル分類ができるっぽい.

また,「sklearn.svm.SVC.score(X, y)」でもマルチラベル分類の結果を返しそう.
モデリングはともかく,取り敢えずの結果が欲しい時なんかには簡易的に使えるか.

sklearn.svm.SVC – scikitlearn

ランダムフォレストはマルチラベル分類問題をサポートしているっぽい.
多クラス多ラベル分類に向いているし,素直にランダムフォレストを使うのが良いだろうか.

3.2.4.3.1. sklearn.ensemble.RandomForestClassifier – scikitlearn

広告
カテゴリー: 未分類 パーマリンク

マルチラベル分類問題 への1件のフィードバック

  1. ピンバック: 分類 | 粉末@それは風のように (日記)

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中