二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: 注意機構【2023-07-24】

 読んだ論文の備忘録です。バカンスのためにしばらくお休みしていましたが、毎週月曜日に更新されます。

1

出典

J. Hu, L. Shen and G. Sun, "Squeeze-and-Excitation Networks," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018, pp. 7132-7141, doi: 10.1109/CVPR.2018.00745.

概要

 計算量を大きく増やさずに画像認識ネットワークの性能を改善することをを目的として、Squeeze-and-Excitaion (SE)という発想に基づくモジュールのようなものを開発した論文。2023年7月現在で2万件以上の引用が行われているバケモノ論文である。

応用上の意義

 この論文のチームはImageNetのILSVRC2017という画像認識のコンペで優勝しており、単にSEを用いたモデルの性能が旧来のものよりも高いことが伺える。それだけでなく魅力的なのが、SEが旧来の主要なモデルのほぼすべてに組み込み可能な汎用的な手法であることだ。これはもう意義しかないし、その柔軟性が爆発的な引用件数にもつながっているのだと思う。

先行研究との比較

 深層学習による画像認識としては比較的早い段階の研究なので、深層学習という領域自体も先行研究の一例として与えられている。
 この論文自体は、Attentionをどう効率化するかという目的意識で研究されたもののようだ。既存の注意機構の問題として計算量の多さが挙げられており、SEによって計算量を大きく増やさない問題解決を模索している。

ポイント

 SqueezeとExicitationによってモデルの性能が向上しているのだからSEの性質が一番の要点になるわけだが、ちょっとよくわからなかった。Squeezeによってチャンネルごとの重みづけを行い、あとからExicitation過程によってその重みを反映させ、データ処理を効率化させるということらしいのだが、よく考えると機械学習におけるチャンネルの本質的位置づけもちょっとよくわかっていない。わかるべき。
 枝葉末節として、Batch Normalizationもわかってないので、わかるべき。

実証手法

 SEを組み込んだネットワークとそうでないネットワークについて、top1エラー、top5エラー、GFLOPSなどを比較することで性能の評価基準としている。
 そのほかに興味深い実証手法として、レイヤー・チャンネルごとの活性化の度合いをカテゴリごとに一つ一つ調べていくことでSEの果たしている意義を調べる、といった検証が行われている。たとえば”goldfish”の画像と”cliff”の画像を処理するときで浅い層の挙動にはほぼ差が無いのでここでは意味的な情報にかかわらない基礎的な構造の処理が行われているっぽい、とか、終わりに近い深い層ではオフセットを除いて挙動にほぼ差が無いのでクラス分類にはあまり貢献していないらしい、といった具合に。論文中では実際にこの分析結果に基づいて終わりに近い層を削除し、性能にあまり影響を与えず計算量を削減できることを確認してもいる。

批判

 正直言えることがあまりない。あまり理解できていない原理面はともかく、実証もしっかりと行われているし、既に応用可能性の広さと説明可能性の高さも論じられている。
 気になるのは、その広い応用可能性が実際にどのように広げられているかだ。この論文の被引用数を考えれば、それをいくつか探索するのはそう難しくもないだろう。

感想

 機械学習とその前提の統計、情報処理をちゃんと勉強しないとダメだなあと思った。最近の論文は高度に複雑化しすぎていて抽象的な話ばかりなので逆に理解しやすい(あるいは、理解した気になりやすい)が、こういう、古典的で論文の中に実装レベルの話まで書いてあるような地に足のついたものだと逆にわからなくなってしまうというのではこれから困る。