二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: バッチ正規化はなぜ有効なのか【2023-08-07】

 読んだ論文の備忘録です。毎週月曜日に更新されます。

出典

Santurkar, S., Tsipras, D., Ilyas, A., & Madry, A. (2018). How Does Batch Normalization Help Optimization? In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, & R. Garnett (Eds.), *Advances in Neural Information Processing Systems* (Vol. 31). Retrieved from https://proceedings.neurips.cc/paper_files/paper/2018/file/905056c1ac1dad141560467e0a99e1cf-Paper.pdf

概要

深層学習分野において学習を効率化する手法としてよく用いられるバッチ正規化/Batch Normalizaton (BN)が、実際のところなぜ学習を効率化できているのかについて実験・考察した論文……ではなくproceeding。従来はInternal Covariate shift (ICS)を解消していることがBNの強みだと考えられていたが、どうもそうではないらしいという結論になっている。

応用上の意義

深層学習分野においてApplicabilityは盛んに持ち出される語彙の一つだが、ここで扱われたBNのような手法についてもそれは重要な指標になってくる。学習を効率化しているうえでBNが果たしている役割とその機序を理解できれば、よりよいモデル・アーキテクチャを提案する上で、あるいはBNよりも効果的なデータ正規化手法を開発する上で役に立つからである。

先行研究との比較

従来はBNはICSを解消することで学習を効率化していると考えられていたが、そうではないらしいことを主張している。らしい、としているのは、これがありとあらゆるモデルの学習について通底する普遍的な結論だとまで主張することは本質的に困難であるため。機械学習の研究はで意味のある結論を出すには、実用の側からの制約が必要なのかもしれない。

ポイント

まずもってICSという語の定義があやふやなので、それを2通りのやり方で定義し、そのどちらの定義においても、BNが必ずしもICSを解消させず、かつICSが改善しないような特殊なやり方でBNをしてもモデルの学習が効率化されたことを示し、ICSがBNの効果を説明する決定的な要因ではないことを説明している。

実証手法

ICS主因論の否定のために採ったのは対照実験だが、そのために、BNで正規化したデータにICSが生まれるようなノイズを敢えて載せ、かつそうしてもただのBNと同等の効果が得られることを証明する、という形式をとっていたのは面白かった。

実際のBNの効果の理由については、「BNが損失関数をなめらかにし、局所的な極小値を減らすことで、局所的な最適解を探索するだけで大域的によい解を探索しやすいようにもしている」という説明を行っている。また、それを理論的な考察によって補助している。

批判

検証に用いているモデルの数が少ない。BNは多くのモデルの学習に使われている手法なので、それらに通底する結論を出すならもっと多くのモデルについて似たような検証を行うべきではないかと考えた。

感想

BNについて理解を深めたかったので読んだ論文。理解は深まったと思う。理論的な考察以外のところはすんなり飲み込めた。理論的な考察のところはちょっとよくわからないというか飲み込みづらかった。まず損失関数を分析し、その挙動を偏微分を通じてさらに分析……という筋立てになっているのだが、主要な損失関数の挙動があまりまだ頭に入っていないので理解に時間がかかった。いずれ頭に入る日は来るのか?