二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: 多層パーセプトロンによるCNNの軽量化【2023-05-15】

 読んだ論文の備忘録です。毎週月曜日に更新されます。

読んだもの

Valanarasu, J. M. J. & Patel, V. M. Unext: Mlp-based rapid medical image segmentation network. arXiv:2203.04967 (arXiv preprint) (2022). https://doi.org/10.48550/arXiv.2203.04967

 

概要

 Medical Image Segmentationにおいて現在幅広く用いられているUNetとその応用は、パラメータ数が多くて訓練が困難で、計算が複雑なので動作も重いという欠点がある。この問題を解決するために、多層パーセプトロン(MLP)を応用したMLP-Mixerに基づいた新たな深層学習アーキテクチャ: UNeXtを提案するというのがこの論文の趣旨である。UNeXtは実際にパラメータ数と計算量の削減に成功しているだけでなく、画像分割の精度においても最新鋭のネットワークに勝る結果を出している。

応用上の意義

 計算資源が潤沢にあるわけではない今日においては、より軽快なアーキテクチャの開発は無限に意義があるといってよいだろう。とりわけ医療分野は特定の事例について学習したモデルを他に流用するのが難しいため(ホンマかどうか怪しげな前提)、学習コストを低減するのは意義がある。

先行研究との比較

 概要に示した通りで、パラメータ数、(同一のコンピュータで使用した場合の)処理速度、F1・IoUに基づく精度が、先行するUNetおよびその応用のアーキテクチャと比較される形で評価されている。UNeXtは既存のどのアーキテクチャよりも優秀な成績を残しているが、とりわけ、計算量(GFLOPs)が100倍近く削減されていることは注目に値する。

ポイント

 UNeXtもUNetの多くの応用と同じように、スキップ接続とU型構造をアーキテクチャの中に持ってはいるが、U字の底の部分がMLPで置き換えられている。これが重要な意味を持っているのはアブレーション研究からもわかるが何でそうなるのかはちょっとわかんなかった。MLPで位置情報を落とさないために工夫がなされているようだがそれもちょっとよくわかんなかった。MLP-Mixerの元論文に当たらないとちょっと理解できなさそう。

実証手法

 いくつかのデータセットを用いて実際にネットワークを学習させ、検証し、その結果を比較する深層学習アーキテクチャを提案する論文では典型的なやつ。
 ほかに何か方法が提案できるかというとかなり難しいのだが、この手法に再現性がどれくらいあるのか不安になっている専門家はいたりしないのだろうか。ちょっと検証用のデータセットを変えたら結果が様変わりした、なんてことはそうそう無いとは思うが……

批判

 特に思いつかない。論文で示された結果自体はすばらしいものだし、やる意義の無い研究というわけでは全く無いし。強いて言うならば、ネットワークアーキテクチャを評価するときに用いる指標(F1とか)の妥当性は常に批判的に再考され続けるべきだとは思うが、この論文自体もそういったモチベーションから上がってきたものではある。

感想

 MLPとCNN、Transformerのそれぞれを核とするの3系統のアーキテクチャが並立しているというのは機械学習の諸分野ではよくある様態らしい(誰によって?)が、医用画像分割の分野でもその3者が並び立つことになるのかもしれない。現状はCNNを核とするUNet系のネットワークアーキテクチャが主流だし、この論文で提案された手法もそこに源流を持つものではあるが。
 毎週月曜日に更新されることになっているこのエントリが日付の変わる前に更新される日は来るんだろうか……