無条件に「正規化すべし」というのはどうだろうか

無条件に「正規化すべし」という

のはどうだろうか

統計学では,正規化(Normalization)も標準化(Standardization)も同様の意味で用いられる事が多いが,機械学習やデータ分析の世界では,標準化正規分布→標準正規分布を指し,正規化データを[0, 1]にリスケーリングする事を指す場合が多いので,ここでは後者の意味で用いる事にする.標準化については,これは言うまでもなく,非常にパラメトリックな話で,議論の余地は無いだろう.問題になるのは後者で,正規化はデータプリパレーション時に,非常に重要なプロセスだけど,何をしたいのか,目的によって,本当に正規化した方が良いのかどうかというのは,やはり考えないといけないのではないか.何でもかんでも,無条件に正規化するべし,みたいな論調があるけど,そうではない(例えば,手法によっては,手法自体に中心化のバイアスがあって,その場合はプリパレーション時に正規化(というかその場合は「標準化」)が必須になるし,必要かどうかの判断がやはり重要で,取り敢えず正規化する位なら,しない方が良い)のでは無いか.次元の異なるデータ間の比較に於いては,正規化が重要になってくる場合もあるけど,データ構造,データの空間的,或いは時間的特徴に着目したい場合,本当に正規化した方が良いかどうかは,色々と考えないといけないのではないかなと.特に,分類や回帰を考える場合,例えば機械学習に於ける前処理といった場面で,本当に正規化するべきなのか,しない方が良いのか,といった事を考えてみたい.本当は,無相関化や,或いはより強力に独立性を仮定してデータを処理するのかという話まで絡む話であって,逆に云えば,正規化云々の議論をする場合,最低限無相関化まで含めて議論しなければいけないのでは無いかと思うんだけど,今回はそこまで言及しない.単に,色々なデータを眺めるだけにしたい.

正規化(リスケーリング)は,min/maxに基づいて処理するので,外れ値の影響を受けやすいと云われるが,データ構造が明らかである場合(つまりバッチ処理的には),全体に対して適用されるからデータ構造は変化せず問題はない(下図).ただ,オンライン的に処理しようと思うと,データ構造が明らかでない為,パラメトリックでない限り,データ構造が変化してしまうリスクがある(一番下の図).要は,「外れ値」というより,元々仮定していたモデルと等価的なデータがくる保証があるかどうか(別の言い方をすれば,リスケーリングモデル自体が,未知のデータに対する予想モデルになってしまうリスク).それが仮定できる様な場合は,そもそも正規分布に従う(或いは近似できる)と考えられるケース,パラメトリックモデルを考えるケースで,正規化では無く,標準化すべきケースじゃないだろうか.手元にあるデータについて,トレーニングデータとテストデータにスプリットして,リーズナブルチョイスなモデリングをしたいという時以外のケースでは,例えば実務的な場面で,探索的に考えたい時,オンライン処理時,必ずしも正規化はしなくても良いし,むしろしない方が良いんじゃないだろうか(その点,正則化の議論については,そうそう理解なく首を突っ込む話じゃないので,変な話をみる事は少ない;正則化と正規化を混同しているケースはたまにみるけど).

同様に,因果性の議論と相関性の議論も,第一義的に同列に扱う話ではなくて,そもそもパラダイム(還元論的パラダイム/全体論的パラダイム)が異なるものとして理解すべきじゃないか(例えば,多重共線性の問題は,見せかけの回帰とか因果性の議論に於いては問題になるが,相関性の議論に於いては問題にはならない).とにもかくにも,前処理の部分というのは,一番難しい話で,正規化/標準化/正則化,大事な話なのは間違いないんだけど,訳も分からずにやってしまう位なら(何でもかんでも標準化という話もよくみる),やっぱりなにもしない方がマシだと思う.

一様分布:

二項分布:

ポアソン分布:

ベータ分布:

カイ二乗分布:

正規分布:

指数分布:

パレート分布:

・コーシー分布

一様分布+一様分布:

・ベータ分布+ベータ分布

PAGE_BREAK: PageBreak

・正規分布+正規分布

・指数分布+指数分布

・パレート分布+パレート分布

・正規分布+コーシー分布

・オンライン的に処理しようとすると(正規分布→正規分布)

全データが既知である場合,何の問題もない.でも,現実に問題になるのは未知のデータをどう扱うか.例えば,「正規化する場合,トレーニングデータとテストデータにスプリットする前に,全データを正規化してからトレーニングデータとテストデータにスプリットするべき」という言説をみるけど,それは全データが既知である事と同義で,論理的に大きな問題がある.

カテゴリー: 未分類 パーマリンク