・GoogleとDeepMindが開発した医療分野に特化したAIモデル「Med-Gemini」が、様々な医療タスクで高い性能を示している。
・Med-Geminiは、レポート生成、視覚的質問応答、画像分類などで従来の手法を上回り、ゲノム分野への応用可能性も示唆されている。
・安全性への配慮は必要だが、このようなマルチモーダルAIが医療現場で活用される日も近く、医療分野でのAIの更なる発展が期待される。
近年、医療分野におけるAIの活用が大きな注目を集めています。そんな中、GoogleとDeepMindの研究チームが開発した「Med-Gemini」というAIモデルが、様々な医療タスクで高い性能を示し、将来の医療AIの可能性を示唆していると報告されています。
Med-Geminiとは?
Med-Geminiは、Googleが開発した大規模マルチモーダルモデル「Gemini」をベースに、医療分野のデータを用いてファインチューニングされた一連のモデル群の総称です。レントゲン画像や病理組織画像、眼底写真、皮膚画像、ゲノムデータなど、様々な医療データを処理できるよう最適化されているのが特徴です。
レポート生成で従来の手法を上回る
Med-Gemini-2Dは、胸部X線画像からレポートを生成するタスクにおいて、専門家による評価で新たな基準を打ち立てました。2つの異なるデータセットで、正常例の57%と96%、異常例の43%と65%が、放射線科医の元レポートと同等以上の品質と評価されたそうです。これは従来の最良の結果を1%から12%上回るものだと述べられています。
3次元CTからのレポート生成にも挑戦
さらに研究チームは、Med-Gemini-3Dを用いて、3次元CTボリュームデータからレポートを生成する初の試みにも取り組みました。まだ放射線科医のレポート品質には及ばないものの、AIで生成されたレポートの53%が臨床的に許容できるレベルだったとのことです。今後の研究で改善が期待されます。
視覚的質問応答や分類タスクでも高い性能
Med-Gemini-2Dは、レポート生成以外の分野でも優れた性能を示しています。胸部X線の視覚的質問応答(VQA)では従来の最高性能を上回り、放射線のVQAでも17/20のタスクで良好な結果が得られたそうです。また、病理組織学や眼科学、皮膚科学の画像分類でも、18/20のタスクでベースラインを上回り、専用モデルの性能に迫ったと報告されています。
ゲノム分野への応用可能性も
画像以外にも、Med-Gemini-Polygenicは、疾患リスク予測においてポリジェニックリスクスコア(PRS)に基づく標準的な線形モデルを上回る性能を示しました。さらに、学習していない遺伝的に関連する疾患にも汎化できることが示唆されています。これは、ゲノム分野へのAI応用の可能性を示すものと言えるでしょう。
Med-Geminiは、様々な医療分野で従来の手法を上回る性能を示し、将来の医療AIの可能性を感じさせる研究成果と言えます。安全性への十分な配慮は必要ですが、このようなマルチモーダルAIが医療現場で活用される日も近いのかもしれません。医療分野でのAIの更なる発展に期待が高まります。