二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: 潜在拡散モデル【2023-09-04】

 読んだ論文の備忘録です。毎週月曜日に更新される予定ですが、そうでない場合もあります。

出典

Rombach, Robin, et al. *High-Resolution Image Synthesis with Latent Diffusion Models*. arXiv, 2022. *arXiv.org*, https://doi.org/10.48550/arXiv.2112.10752.

概要

Stable Diffusionなどがある画像生成AIの中核的技術である、潜在拡散モデル(LDM: Latent Diffusion Models)を提案した論文。

応用上の意義

社会へのインパクトの大きさは言うまでもない。拡散モデル(DM: Diffusion Models)を用いた画像生成自体はこの論文の前から提案されていたものだが、必要な計算が膨大なので、利用可能なのは事実上大企業などの一部の主体に限られていた。

潜在拡散モデルが画期的なのは、潜在空間の導入によって訓練および推論に必要な計算量が従来のものに比べて大きく削減したことであり、個人でも手が届くVRAM12GB程度のGPUでも十分性能の高い拡散モデルの訓練・利用が可能になった、あるいはなってしまったことにある。つまるところ拡散モデルが”民主化”されたわけだ。

先行研究との比較

潜在空間の利用によって大きく計算量が削減されたことに意義がある。性能……も比較されているように見えるが、どれくらい意味のある比較がなされているのかは正直に言ってわからない(質への定量的な指標がないので)。512*512pxのような大きな画像が生成できるようになった、というのは一つ定量的な改善点として挙げられると思うが。

ポイント

LDMを構成する要素のうち重要なものが二つある。

LDMは全体として、まず画像を低次元の潜在空間に圧縮し、潜在空間上で画像生成を行い、生成したものを潜在空間からまた通常の画像として高次元に引きずり上げるという構成になっている。

そこでまず重要なのがオートエンコーダに近い原理での潜在空間への画像の圧縮だ。これによって、512*512などのRGB空間という極めて次元が高い画像空間から、より次元が小さい潜在空間へと情報を落とし、低次元の潜在空間上で画像生成に必要な拡散モデルによるノイズ削減処理を行わせることによって計算量を大きく削減、最後にまた潜在空間から画像空間へとデコードすることで画像生成を完了するという仕組みになっている。このエンコーダ/デコーダの仕組み自体は前の論文でくみ上げられたものらしく、論文中ではその学習方法などについては詳しく説明されなかった。ここがLDMの中で一番重いとはいえ応用の効きやすい部分なのか、ここの訓練さえ済ませれば拡散モデル部分については再訓練が容易で、これによってアニメ絵生成などの幅広いStable Diffusionの応用が可能になっているのかもしれない。

ついで画像生成についても注目するべき点があり、それが条件付け機構(conditioning mechanism)だ。これはベイズ確率を画像生成器に学習させる(これの原理についても論文中ではあまり説明されなかった。拡散モデルとして平均的なことをやっているようだが私は拡散モデルがわからない)ことで条件によって画像出力結果を偏差させるもので、例えばテキストが条件になるならt2i(text to image)であり、低画質の画像が条件になるならupscalingになる。この詳細な機構についてはおのおのgithubでも参照してもらうとして、これが潜在拡散モデルの実用性を大きく向上させていることは確かだろう。例えば敵対的生成ネットワーク(GAN)は拡散モデルと並ぶ画像生成手法の一つだが、GANで作られているWaifulabsなんかはプロンプトでの指定ができないから、今になって考えるととても使いづらかった……

実証手法

既存のモデルと提案する潜在拡散モデルがt2i、upscaling、inpaintingなどについて実際に出力した結果を比較するほか、訓練課程の計算時間やもろもろのハイパーパラメータについての議論もなされている。単純にこの領域における評価指標に用語として慣れていないのもあるだろうが、大いにあるだろうが、比較による実証というよりは工程を概説したマニュアルのような印象を受けた。

批判

ラベル付けなんかを行うAIならその質を定量的に評価することもできるだろうが、画像生成AIの出力の質は人間の非明示的な価値観によってくるところが大きいのでどうしても定量化して評価することは難しい。だからといってやる意義がないとまでは言わないが、これをエンジニアリングとして成立させる、つまり市場などでの価値に判断を投げ出せる企業やアーティストによる活動などとは違う、学問的な評価軸に立つ学問の一分野として研究の対象にするためには定量的な指標が欠落しているようにも思えないこともない。歯切れが悪いのは「でも見れば明らかに改善されてない?」で押し通せないこともないように思えるから。定量的に評価できる推論時間・訓練時間の改善とか訓練推移過程における評価関数のどうこうなんかはちゃんとやってるし……

感想

まさにこれを応用しているAI生成絵でかわいいアイコンなんかを作りまくっている我が身ではあるのだが、stable diffusionが世に出て色んなものがぐっちゃぐちゃになってからこの論文を読むまでに1年かかった。1年で論文を読みに行くだけの体力がついたことを評価してもやりたいところだが。

この論文を読んでいて一番面白かったのは、潜在拡散モデルが、拡散モデルの民主化をずばりそのものの目標として設計されたものであるという」事実だ。今日は、Nijijoureneyのような企業が提供するプロプライエタリなものはもちろん、多くのインターネットのおたくが個人的に思い思いのマージモデルやLoRAを作り、色んな人の頭を悩ませたりもしているわけだが、その状況は、まさしく個人用のGPUでも画像生成モデルの訓練・利用を可能にしてしまおうともくろんだこの研究グループの手のひらの上ということになるのだろう。まだまだAI特有の癖から画像がAI生成だと見抜けないこともないレベルでしかないとはいえ、ぐちゃぐちゃの指の隙間から多くのものがこぼれていないか心配にはなるところだが……