二千三百五十五年

"Making peace to build our future, Strong, united, working 'till we fall."

週始論文: 術中超音波画像三次元再構成 ほか2本【2023-05-29】

 読んだ論文の備忘録です。毎週月曜日に更新されます。

読んだもの1

Wang, C., Komninos, C., Andersen, S. et al. Ultrasound 3D reconstruction of malignant masses in robotic-assisted partial nephrectomy using the PAF rail system: a comparison study. Int J CARS 15, 1147–1155 (2020). https://doi.org/10.1007/s11548-020-02149-4

概要

IOUS(intraoperative ultrasound: 術中超音波計測)でのUS 3D reconstructionのためにPAFというレールシステムを作ったらしい。それの有用性を確認するということなのか。題材はRAPNでの悪性腫瘍の3D造影。3次元再構成には不可欠である、プローブの位置推定のためのもろもろの手法についても検討している。

応用上の意義

 術中にガンガン回していける3次元的な検査手法ってUSくらいなので結構意義深めっぽいみがある。

先行研究との比較

 モデルの精度が向上されている。他はちょっとよくわからなかった。ちょっと具体的過ぎてあんまり先行研究がない気がする。

ポイント

より正確なUSの3D計測を行うためにロボット工学的な手法で工夫がなされている。やっていることが多岐にわたっていて全部紹介したくないのでいくつか抜粋すると、例えばPAFのレールと、エンドエフェクタ部分のグラップルの設計の工夫などによって取りうる位置関係のパターンを制限して姿勢推定を容易にする、カメラでエンドエフェクタを撮影して姿勢推定を行う際にエンドエフェクタにつけるマーカーをいろいろなパターン試して最適なものを探るなどされている。

実証手法

 腎臓のファントムを用いて実験室実験を行い、3D造影と位置推定の精度が定量的に検証されている。

批判

 これに先立つ論文で発表したPAFの有用性を示す、みたいな話だったと思うんだけどあんまりPAFの性質がどのように精度向上に貢献しているのかはわからなかった。PAFに類似品がないからそういう軸での評価は必要ないと判断されたのかも(レールであるだけで価値がある、的な) 

感想

 ロボ系の英語論文を読むのは経験があんまりないので知らない英単語にいっぱい触れられてよかった。manometerとか。座標変換をこね回すいかにもロボ系って感じの内容で、よかった。



読んだもの2

Matinfar, S., Salehi, M., Suter, D. et al. Sonification as a reliable alternative to conventional visual surgical navigation. Sci Rep 13, 5930 (2023). https://doi.org/10.1038/s41598-023-32778-z

概要

 sonification(可聴化)によって手術動作を支援するシステムについての論文。現在主流の可視化に比べて音の情報量には限界があるが、4自由度の表現力を持つ音声システムが構築されている。multimodalな手術支援システム(ある種のUI?)の効果を検証するものでもある。

応用上の意義

 手術が正確になると……うれしい!ので可聴化によるナビゲーション支援には意義がある……が、この研究の時点では、可視化に比べて統計的に有意なほどの優位性は出せていない(明確に可視化に比べて劣っている結果が出たわけでもない。トントンくらい)。じゃあ目だけでもよくね?と素人考えしてしまいそうになるが、情報の密度が高く、判断の速度も要求される手術中という環境では、information overloadを避けるためのより効率的な情報処理手法に意義が出てくるんだそうだ。目以外からも情報を得れるならなんか感覚器がフル活用されてる感じがして嬉しいよね。嬉しい。

先行研究との比較

 可聴化の分野においてはいかにして情報の自由度(次元と言い換えてもいいかも)を増やすかが主なテーマになっており、そのために立体音響(直感的でわかりやすいが角度方向の分解能に問題がある、人間は90度真横から聞こえてくる音と89度横からの音を区別できない)や、音色・音量・ピッチなどを用いたモノラルなアプローチ(非直感的なので使いやすさに問題がある)が用いられてきた。本研究はその辺の流れを踏まえ、(当時は)前例のない4自由度の音響システムを構築したものになっている。

ポイント

 頚椎椎弓根スクリュー挿入手術では、器具を、適切な位置に・適切な角度で指向する必要がある。そのための位置調整は平面上で行われるとみなせるので2自由度、角度調整も3次元的には行われないので(ピッチとヨーだけでロールがない)2自由度の調整が出来ればナビゲーションにはそれで十分だ。これを利用し、論文のシステムでは、ナビゲーションを位置調整と角度調整の二段階に分けて、それぞれについて2自由度のナビゲーションを行うことで2*2=4自由度でのナビゲーションを実現している。具体的には、人間の耳が音の高低とテンポを独立して認識可能だという性質を利用し(perceptual orthogonality: 認知的直交性という表現がなされていた。面白いと思う)、それぞれの段階で高低とテンポに情報をエンコードする形で2自由度の指示能力を確保している。

実証手法

 ファントムを用いた模擬手術を可聴化システムによる支援下とそうでない場合について医者・助手などの関係者からなる被験者群に行わせ、手術の精度を測り、比較する形でシステムの評価がなされた。

批判

 今回開発されたシステムは頚椎椎弓根スクリュー挿入手術を対象としたものだが、この術式の、段階ごとに自由度を分割しての制御が容易だという特性のために2自由度×2段階での誘導ができるようになっている可能性は否めないのではないか。より幅広い手術を対象として応用を利かせるには、もっと高次元への自由度の拡張が必要になってくる……というと医学側のニーズに合わせた形になってしまって少しムズムズする。低自由度でエラーが簡単に制御できるような術式を開発することを目的とした工学側からのアプローチはないんだろうか。そういうものが出てくるには、手術の自動化技術がもっともっと進展し、人間を部分的に疎外しても成り立つだけのレベルにもっていく必要があるというのが実際のところなんだろうが……

感想

 全世界の研究者がstate of the artの語を多用している。cutting edgeとかも交えたほうがいいと思う。この際newでもいい。
 とても長かったのでAbstractとMethod以外はざっくりと読み飛ばしたことを自白する。この文字サイズで15ページも書かれたら非ネイティブは死んじゃうよ~


読んだもの3

K. He, G. Gkioxari, P. Dollár and R. Girshick, "Mask R-CNN," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017, pp. 2980-2988, doi: 10.1109/ICCV.2017.322.

概要

 FacebookのFAIRから出た論文。Faster R-CNNを改造したアーキテクチャとしてMask R-CNNを提案している。このMask R-CNNはなかなかすごく、画像分割から画像認識、人間の姿勢推定なんかにも応用可能な汎用的な画像処理アーキテクチャということになってくるらしい。どういうからくりなんだ?と思ったが、姿勢推定上のキーポイントを1ピクセルのマスクとして認識させることで画像分割ネットワークをそのまま応用することができるらしい。なるほどなぁ。

応用上の意義

 Facebookのサービスとかで使われてるんじゃないスか?ここまでになるとわざわざ説明するのも野暮だ。

先行研究との比較

 Faster R-CNNに後述する改良を加えたものが提案されているMask R-CNNである。ピクセル単位で画像を認識・分割するInstance Segmentationにおいては、論文発表当時(2017)における最良のモデルの一つといってもよい性能を持っていたようだ。

ポイント

 Faster R-CNNは、まずRegion Proposal Network (RPN)という第一層でありうるバウンディングボックスを提案しつつ、第二層でバウンディングボックスを出力する枝とクラスを出力する枝がそれを並列に処理するように設計されている。この第二層にマスクを出力する枝をさらに並列する形で生やしたのがMask R-CNNになる。対象のクラスとマスクを同時に推測するのではなく別々に処理することでクラスの出力がマスクの精度に左右されなくなり、かつ全クラスについて一括してマスクによる分割を提示できるのでマスク間の競合を避けられ、精度の向上につながるそうだ。

実証手法

 AP(Average Precision: IoUに基づくマスクの精度評価指標。わかったようでよくわからない。PrecisionとRecallのトレードオフが体感的に理解できないとこれも体感的に理解できないんだと思う)でのモデル精度評価とアブレーション研究。

批判

 このモデルも現在では最新鋭ではないわけだが、果たしてどういう改造がなされたのかは気になる。追う気にはならないが……

感想

 先週の論文2からMask R-CNNについて深堀り。FAIRが書いていることが影響しているのかどうかはわからないが、読みやすい論文だった。構造がシンプルで訓練も検証も簡単であることを何回も繰り返されてしつこかった。わかった。わかったから。
 当たり前だが、先行研究の流れを追えていないのですべては理解できていない。苦しい。