読んだ論文の備忘録です。進捗があったときに更新されます。
出典
Den, H., Ito, J., and Kokaze, A., “Diagnostic accuracy of a deep learning model using YOLOv5 for detecting developmental dysplasia of the hip on radiography images,” Sci Rep, 13, 6693, Apr. 2023. Available: https://doi.org/10.1038/s41598-023-33860-2
概要
深層学習による物体検出(object detection)を用いてX線画像から疾患を自動で検出する手法についての論文。ここで扱われている疾患は発育性股関節形成不全(Developmental Dysplasia of the Hip: DDH)で、人間の放射線科医と比較しても遜色ない感度・特異度での診断ができている。
応用上の意義
X線画像からの診断は、それに習熟した専門医を必要とする、専門性の高いタスクなので、自動化できるならそれに越したことはない。
先行研究との比較
DDHという具体的な疾患のX線画像という具体的な様態について物体検出を利用した研究自体の先例はないらしいが、物体検出を用いた画像診断の支援の研究自体には幅広い先行研究がある。YOLOのサブモデルのパラメータ数の大小が必ずしも検査結果の精度の高低と一致しない現象(後述)など、他の研究と共通する部分もあるようだ。
ポイント
この手の医用画像処理によく付きまとう限界の一つとして、訓練に用いることのできるデータの点数がそもそもかなり少ない、というものがある。この研究で構成されたデータセットも高々数百枚程度だ。そこでこの研究では、YOLOv5とSSD(物体検出タスクに広く用いられているつよいアーキテクチャ)に遷移学習(transfer learning)を用い、データセットの不足を補えた、というに十分な性能が出るかどうか検証した、というのが大きな要点だと思う。
実証手法
YOLOv5についてはYOLOv5x、YOLOv5mなどのサブモデルについて、SSDについてはVGG16を利用したものについて、いずれも(おそらくは一般的な画像で)学習済みのデータセットをDDHのX線画像で遷移学習にかけ、感度や特異度などを検証し、その性能について評価している。スコアは非常に優秀で、一部については、5年の経験がある放射線科医(DDHの診断に専門的な経験を有していることは意味しない)の診断能力を上回る診断性能を出している。
批判
今回用いられているのは画像分類ではなく物体検出で、これは分類結果について排他的でないので、当然の帰結として、同一の股関節について「正常」と「DDH」のラベルを同時につけてしまうような場合も、ごくまれにではあるにせよ、存在していたようだ。この論文ではそのような場合を全てエラーとし、診断は失敗したものとして勘定に入れる処理をしている(妥当だと思う)。そのような場合にこそ診断の困難性の本質があると思う。
感想
物体検出を用いた診断支援システムの構築の一例として、非常に明快で、スタンダードになりうるようなシンプルなものを見られてよかった。普通の画像で訓練されたモデルを医用画像で繊維学習に掛けるだけでかなり高精度での物体検出が行えるのは、すごいと思う(小学生並みの感想)。ただ、X線画像は、被写体に対するカメラの角度・位置が基本的には固定されているという非常に強い制約をかけられるモードであり1、まさに物体検出が輝きうるところ、換言すれば、物体検出が苦手とするような被写体の大きさ・角度などのノイズをそぎ落とせているところで、よい結果が出たのもむべなるかなあと思うところである。
今回訓練されたモデルは診断支援の実用的な方法として明日にも臨床に突っ込めるような水準のものだと思うが、気になるのは、このような自動診断システムが普及し、普及しきった場合の未来だ。この研究でもなされているように、このような自動診断システムの開発は、基本的には、対象となる疾患にものすごく高度な知識を有している専門医がデータセットを作成し、それを模擬するようなモデルを訓練して、ぺーぺーでも専門医と同等の診断ができるようにする、という未来像を目標としているのだけれど、そのようなこと、深層学習による知識の外部化が進んでいけば、やがては、モデルを訓練する技術屋さんのほうが、ユーザーである医師よりも、診断に必要なノウハウについて多くの知識を持っているような時代が来るかもしれない。そうなればおれたちは誰にデータセットの作成を依頼すればいいのか?これは一つの危機になりうると思う。
そんなことは20世紀から多くの工場で行われてきた聖なる「自動化」の流れの一つの支流でしかないとも思うのだけれど、深層学習は、現象の本質を反映する特徴量の抽出過程自体は手動で設計しなければならない古典的な機械学習やアルゴリズム的な自動化とは違って、現象の背景となっているモデルへの本質的な理解を必要としていない(特徴量の抽出さえ自動でやってくれるので、入力と出力さえああれば訓練ができてしまうし、その訓練課程は往々にして説明可能性がない)ので、根深いものになりうると思う。未来は一体どうなるんでしょうね?(他人事)