二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: 超音波撮影のアーティファクトに対応したキーポイント抽出ネットワーク ほか3本【2023-06-19】

 読んだ論文の備忘録です。毎週月曜日に更新されます。

1

J. Xu et al., "Hip Landmark Detection With Dependency Mining in Ultrasound Image," in IEEE Transactions on Medical Imaging, vol. 40, no. 12, pp. 3762-3774, Dec. 2021, doi: 10.1109/TMI.2021.3097355.

概要

 発育性股関節形成不全(DDH)の超音波診断支援のための、キーポイント抽出手法を提案する論文。超音波での撮像にはつきものな諸々の誤差要因をキャンセルするためにローカルな構造からの情報(dependency)とグローバルな構造からの情報を総合するアーキテクチャを実装、高い精度を実現している。

応用上の意義

 診断支援には意義がある。それとは今回の研究で用いた超音波画像データセットの公開も行っているらしく、事実だとすれば大変意義のあることなのだが(ただでさえ数が少ない医用画像は扱いがセンシティブなこともあってかパブリックなデータセットがとても貴重)、ちょっと検索した限りでは発見できなかった。論文投稿時は公開予定だったけどなんかで取り消したとかなんかなぁ?

先行研究との比較

 local confusion(目標の解剖学的構造と関係ないものが目標の近くに移り、近さのために混同する)とregional weakning(生体組織の不均一性のために超音波が特定の部位で減衰し、一部分だけ暗くなってしまう(しかもどこが暗くなるかには個人差がある!))という超音波画像取得上の2つの問題についてそれぞれ対処する手法は提案されているが、あちらを立てればこちらが立たず、といったトレードオフの関係にあるものだった。この論文では既存手法にheatmap based landmark detectionなどの手法を組み合わせ、両方の問題を同時に処理できるアーキテクチャの設計を目指している。

ポイント

 ローカルな文脈をCNNで抽出したうえでグローバルな情報と対応付けさせることでうまい具合に両者を同時に扱うネットワークアーキテクチャを形成している。具体的にどういう計算が行われているのか、具体的に何がどううまい具合なのかはちょっと説明できない。ここでいうrelation matrixって何?おれの知っている2値行列のアレではない気がする……
 重要なのはそこだけではない。この論文ではいきなりキーポイントを抽出するのではなく、まずヒートマップ(どの辺に目標がある可能性が高そうかな~というのを確率的に全ピクセルに対して計算した画像)を計算させてから、一番可能性が高そうな場所の周辺の情報をくみ取って最終的なキーポイントの座標を形成する、という2段構えのアルゴリズムを利用している。こうすることでローカルな文脈をうまく処理できるらしい。

実証手法

 抽出されたキーポイントの真値からのずれを、誤差の平均値などの指標で定量的に評価することでモデルの性能を評価している。先行研究で提案されているモデルとの性能比較を行うことで評価基準を作成している。アブレーション研究などは行っていないようだ(ネットワークの構造的に難しい気もする)。

批判

 キーポイントの抽出自体は人間の医師と比べても遜色のない高い精度で行えているのだが、そこから計算された疾患へのrecallは人間のそれに比べてかなり低い。これは何故なのか?

感想

 ローカルな構造を抽出するためにCNNを用い、それをスキップ接続で運んできたグローバルな構造の情報と掛け合わせることで視野の広いキーポイント抽出を実現する構造はとてもU-Netのそれに近い。そこそこ汎用性の高いフレームワークなんですねあれ。

2

Luo, M., Yang, X., Huang, X., Huang, Y., Zou, Y., Hu, X., . . . Ni, D. (2021). Self context and shape prior for sensorless freehand 3D ultrasound reconstruction. (). Ithaca: Cornell University Library, arXiv.org., https://doi.org/10.48550/arXiv.2108.00274

概要

 フリーハンドな2Dのプローブからの情報のみで3Dの超音波画像を構成しようという研究。実用化に向けて、複雑なプローブの移動パターンにも対応できるようにしたフレームワークを提案している。

応用上の意義

 3次元の超音波画像は臨床上大きな価値があるが、その取得は簡単ではない。まず必要な装置がでかいし高い。ので、簡単に扱えて安い2Dのプローブのみから情報をこねくり回して3次元の超音波ボリュームを取得できるようになれば、そこには大きな意義がある。

先行研究との比較

 この手の研究ではプローブの単純な移動のみを考えて3D再構成を行っていることが多いが、実際の臨床では、単純な一方向への移動のほかに何度も折り返して同じところを繰り返し見るような移動パターン、途中での加減速、あるいは角度方向での移動など、複雑なプローブの運動が行われることも珍しくない。そういった場合にも対応できるようにするのがこの研究の主目的。

ポイント

 フレームワークがこれまたよくわからない。基本的には、3次元のデータセットを適当にスライスすることで位置関係が既知の2次元画像データを作り、2次元画像の集団をネットワークに与えて位置関係を推定させて再構成する、という方法で訓練を進めているようなのだけれど、その過程の中に敵対的学習(ADL)の機構が組み込まれている。が、ADLの原理がよくわからない。GANを用いた訓練と似たようなものなのだろうか?最終的にはグラウンドトゥルースの3次元データと区別できないような3次元データを再構成することが目標となるようなフレームワークで訓練が行われているようだぞ、ということがわかった。
 推定されたスライス間の位置関係を基にした3次元ボリュームの再構成手法もちょっとよくわからない。そこ一番大事なところなのにわからないまま読んでるのは不誠実すぎるだろ。なんか一番近いところの値を単純に引っ張ってきているだけではない高度な補間が行われてるっぽいんだよな……

実証手法

 発育性股関節形成不全(DDH)と胎児の2つのデータセットを用いて3D再構成を行い、偏差について、他モデルとの比較やアブレーションしたモデルなどと比較することを通じてモデルの性能が相対的に優位であることを証明している。また、実際に再構成された立体を見ての定性的な評価も行っている。
 評価指標の一つとしてbidirectional Hausdorff distanceというものが登場しているがちょっとよくわからない。ハウスドルフ距離さえよくわからないのに……

批判

 ちょっと思いつかない。模擬された移動パターンの妥当性はどうやって評価するのか、というくらいか。

感想

 学会発表のプレプリントだからか、arXivのやつは雑誌の論文より分量が軽くて読みやすいものが多い気がする。そのぶん犠牲になっているものがわかるほど経験も積んでいないので純粋にうれしい。

3

Chen, T., Zhang, Y., Wang, B., Wang, J., Cui, L., He, J., & Cong, L. (2022). Development of a fully automated graf standard plane and angle evaluation method for infant hip ultrasound scans. Diagnostics (Basel), 12(6), 1423. doi:10.3390/diagnostics12061423

概要

 先天性股関節形成不全(DDH)の診断手法の一つである、超音波エコーを用いたGraf法について、超音波エコー動画の生データを受け取って一気に診断結果の確定までやってしまう総合的なフレームワークを提案した論文。性能はかなりよく、人間の診断を完全に再現できているわけではないが、特徴の抽出では人間を上回る精度を出している。

応用上の意義

 Graf法の実行には超音波装置の扱いや超音波画像の読み取りに熟練した専門家が必要で、そこが大きなネックになっているので、そこを自動化できるのであれば意義がある。

先行研究との比較

 スタンダードプレーンを2D画像や3Dデータから抽出するものや、スタンダードプレーンに基づいて診断支援を行う研究は過去にいろいろされてきているが、一つのフレームワークの中で、計測された生データからのスタンダードプレーンの抽出から診断までの全工程をやってしまうものには前例がない。当たり前といえば当たり前だが、一体化できるならしたほうが性能向上には繋がりそうだしよさげだと思う。

ポイント

 「超音波エコーの動画の各フレームについて、スタンダードプレーンかどうかの判断に必要な要点を抽出するモジュール」「抽出されたモジュールの信頼度に基づいて一番スタンダードプレーンっぽいフレームを選択、診断過程に送るモジュール」「受け取った静止画から診断に必要な特徴量を抽出、診断するモジュール」の3つで構成されたフレームワークにより、動画の生データからの直接診断を可能にしている。モジュール一つ一つの構造は単純で、深層学習に古典的な画像処理手法を組み合わせただけだが、性能はかなりのものに仕上がっている。

実証手法

 まずモデルを静止画のデータセットで訓練し、のちに動画からの診断をやらせ、その診断結果が人間の診断結果(正解)と比べてそん色ないかどうかでモデルの評価としている。案の定アブレーション研究的なこともやっている。

批判

 動画からのスタンダードプレーンの抽出過程において、抽出されたスタンダードプレーンが正しいものである理由を「十分に正確かつ大きな量のデータセットで訓練したモデルの出力が正確だと考えられること」に求めているが、普通に反証可能性がなくて危ういと思う。科学的な説明ではない。最終的に診断結果で実証が取れているのでモデルの性能自体は確かではあるのだが……

感想

 圧倒的な量のデータセットも貢献しているのか、人間の診断能力と比べてもそこまで遜色のない、かなり良好な結果が出ていると思う。実用化も遠くなさそうだ。ところでこれの掲載誌の出版社の名前をググったら一番最初に「ハゲタカ」がサジェストされたんですけど大丈夫なんですかね?

4

大倉 典子, 後藤 さやか, 村井 秀聡, 青砥 哲朗, バーチャルオブジェクトを利用した「かわいい」色の検討, 日本感性工学会論文誌, 2008, 8 巻, 3 号, p. 535-542, 公開日 2016/01/25, Online ISSN 1884-5258, https://doi.org/10.5057/jjske.8.535, https://www.jstage.jst.go.jp/article/jjske2008/8/3/8_535/_article/-char/ja

概要

 「かわいい」評価と色の関係を検証するため、バーチャルオブジェクト(2009年の論文だからか耳慣れない大仰な語彙が出てきているが、ようは立体視可能な3Dモデルくらいの意味でいいと思う)を用いた検証と統計的な分析を行っている。

応用上の意義

 「かわいい」表象には大きな商業的な価値が埋まっているだけでなく、国外にはない日本独自の価値観として(ホンマか?)今後のソフトウェア産業の一つの基盤になりうる強みがある(これはそうかもしれない。日本のソフトウェア産業はかわいいと関連したオタク文化だけは輸出超過だ。まあ、かわいいを理解できるのは、幸か不幸か東アジアで日本人だけではなかったようだが……)。が、かわいいの体系的な理解は進んでおらず、アンケートの結果やデザイナーの勘に依存している状況だ。このような状況を打破することには意義がある。

先行研究との比較

 「かわいい」と形やものの関係を調べる文化論的な研究は行われているが、統計的な形で色彩とかわいい評価の相関を調べたものは前例がないようだ。

ポイント

 赤・青などの色が5系統ずつ、各系統に3種類の彩度と3種類の明度で9種類の幅を持たせ、のべ45種類の色を用意。それぞれの色に塗られたバーチャルオブジェクトのセットからある程度体系的にいくつか候補を選び出し、その中で一番いいものを選ばせる、選ばれたもののなかで更にいいものを……と勝ち抜き戦方式でかわいい評価の優劣づけをおこなっている。単に45色提示して一番いいものを選ばせるだけでは認知的な負荷も高いだろうし、勝ち抜き戦方式をすることによって、一番以外にもある程度の順序関係をうかがうことが出来る(1回戦や2回戦のデータを取得できる)面白い実験デザインだと思う。ただ、オブジェクトの選び方が体系的で、のちの議論で使いたいフレームワークが実験過程に先行してしまっている気がする。完全にランダムにやらせると組み合わせのパターンが爆発して、もっと被験者の人数を増やさないと有意義な結論が出せなくなりそうではあるけれど。

実証手法

 実験に基づいて取得したデータの統計的な分析と有意性検定。

批判

 かわいいの国際市場における価値を分析するという目的に立つのであれば、日本以外の文化圏において同等の実験を行って比較する、などの発展が考えられると思う。考えなければならない変数はぐっと増えるだろうけど。その辺はもう本当に文化屋さんの領域ですね……

感想

 ツイッターで大倉先生の著作を見かけ、かわいいを扱う感性工学に興味を持ったので半ば衝動的に読んだ論文。やっていること自体は地に足のついているアンケートの統計的分析だった。色とかわいい評価の関係が分析されたわけだが、ここに文化論的、あるいは神経科学的な説明を導入したりすることもできるんだろうか?論理がぐっと飛躍しそうな気はするが。