同じ初期値を用いた場合にUMAPはt-SNEよりも良いグローバル構造を保持するとは限らない(UMAPの方がt-SNEより良い結果を示すのは単に初期値の問題)

UMAP does not preserve global structure any better than t-SNE when using the same initialization – bioRxiv

一般に「UMAPの方がt-SNEよりも綺麗(データ構造をよく捉えられる)」という話について,UMAPの方がt-SNEより良好な結果を示すのは,初期値の取り方,どちらもコスト関数の最適化に最急降下法を用いるが,その際に初期値として,UMAPはラプラス固有写像(Laplacian Eigenmaps)を用いるが,t-SNEはランダムに初期値を取るが,それで結果に差が出ているだけで,手法にはさほど優劣はないという趣旨の論文(どちらも初期値をランダムに決めればpoorな結果に,どちらも初期値をきちんと(UMAP: LE, t-SNE: PCA)求めると良い結果に).ただし,(使っていても思うのは)UMAPの方が結果がコンパクトに纏まる傾向があるので,初期値次第でどちらの手法も大局的な構造を表現できるとしても,好みは分かれるのかなと.また,UMAPの方が処理速度が速い事に変わりはないので,UMAPが有用である事に変わりはない.

t-SNEの初期値としてはPCAを用いている.計算が簡単だからLEの代わりに用いた,と書いてあるが,それによってどれ位違いが出てくるのか気になる.固有値問題を解くという意味においては,同様の手法なのかも知れないけど,かたや線形モデル,かたや非線形モデルという事で,データによって結果は異なってくると思うけど.

カテゴリー: 未分類 パーマリンク

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください