二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: 畳み込みオートエンコーダによる攻撃検知【2023-08-14】

 読んだ論文の備忘録です。毎週月曜日に更新される予定ですが、そうでない場合もあります。

出典

Z. Chen, C. K. Yeo, B. S. Lee and C. T. Lau, "Autoencoder-based network anomaly detection," 2018 Wireless Telecommunications Symposium (WTS), Phoenix, AZ, USA, 2018, pp. 1-5, doi: 10.1109/WTS.2018.8363930.

概要

ネットワークへの攻撃検知手法として、Convolutional Autoencoder (CAE) を用いた異常検知手法を提案する論文。

応用上の意義

wiredよりも攻撃を受けやすいwirelessの通信の安全性を担保するために異常検知手法が必要なのはもちろんだが、この研究の意義はそれだけではない。新たな異常検知手法としてCAEを提案したことに大きな意義がある。CAEは、畳み込みのために二次元データでなければ扱えないという制約はあるものの、非線形な性質を効率的に扱うことが出来るよい異常検知手法で、ネットワークへの異常検知以外の幅広い分野に応用可能だろう。

先行研究との比較

畳み込みを用いたオートエンコーダは今日ではそこまで珍しくもない気がするが、それを始めて提案したのがこの論文ということになるらしい。PAE(主成分分析)を用いる従来手法と比してCAEは非線形な関係も扱うことができるし、全結合ネットワークを用いるAEと比してもCAEの方が必要なパラメータ数が少ないのでより効果的に学習をすることができる。K-近傍法やSVMなどに比べてもよい結果を出しているのは魅力的だ。

ポイント

CAEの性能は近い位置にあるデータをまとめる畳み込みの効果に由来している。つまり近い位置にあるデータに関連性がないと意味がない。画像データのような、本質的に近い位置のデータに関連性がないわけがないものなら効果的である可能性も高いだろうが、この研究のような、もともと2Dデータとは呼べないものを一定の手段で2Dデータ化してからネットワークに投入するような手法を用いる場合、2Dデータ化手法の性質が問題になってくると思う。

実証手法

NSL-KDDというデータセットを用いた異常検知ネットワークの訓練と検証を行い、その性能を諸々の指標で比較、CAEの分類性能が既存のものに勝ることを確かめている。その中にはROCのAUCが含まれている。これは閾値を用いた二値分類問題について、それを処理するための閾値を決定することなくネットワークの性能を評価できる指標だ。

批判

CAEとAE(畳み込みを利用しない全結合によるもの)の性能にあまり大きな差があるようには感じられなかった。統計的な検定による帰無仮説の棄却が欲しいところ。どうすればいいのかはわからないが。

また、CAEのメリットとしてパラメータの少なさとそれに由来する訓練時間の短さが挙げられていたが、であるならば訓練過程の様子なども載せてほしかったところではある。

CAEの性質についても考えられることは多い。例えば3*3、5*5、7*7の畳み込みの場合でどのように性能が変わってくるのか、といった研究のアプローチは考えられるだろう。もうやられていそうではあるけど。

感想

異常検知というのは本質的には二値分類問題で、多くの場合、まず何らかの空間(次元が元データより低ければうれしい)へと情報を落とし、そこに境界線を引いてこちら側とあちら側で正常と異常を分けるという形をとる。この論文で扱われているCAEでの検知も、本質的には、圧縮→展開のときのエラーという形で対象の情報を一次元空間に落とし、そこに閾値を設定して問題を分類するというやり方を取っていると言える。

であるならばそこで問題になるのは、境界線の引きやすい空間へと生データの次元を落とすときに、どのように情報が保存されるか、あるいはどういった情報が落ちるか、ということになる。AE/CAEの場合は、まず”正常”な情報を圧縮してから展開するネットワークを訓練させ、次にそのネットワークでちゃんと圧縮→展開できるものが正常、できないものが異常、という理屈で正常と異常をネットワークにエンコードしているわけだが*1、これは、正常なデータに十分な一貫性があり、かつ正常なデータのサンプルを十分な数だけ集められていることを前提としている。その前提条件を健全に満たしているかどうか判断できるのは最終的にはエンジニアの脳しかない、ということになってしまうのだろうか。どうにかそこにも数学的な定式化を持ち込みたいところだし、たぶん統計学の中にそれを扱える道具もあって、既にやられていそうではある。

*1:この原理は面白いと思うが、どうにもうまい比喩が思いつかない。特徴量空間みたいな用語を持ち出せばいくらでも説明はつくが、それが分かる人に比喩はいらないだろう。