AIが医療現場で発揮する診断能力や特徴は不明だった
大阪公立大学は4月2日、生成AIと医師の診断能力を比較した結果、非専門医とは同等の精度であることが判明したと発表した。この研究は、同大大学院医学研究科 放射線診断学・IVR学の田北大昂講師、人工知能学の植田大樹准教授らの研究グループによるもの。研究成果は、「npj Digital Medicine」にオンライン掲載されている。

近年、ChatGPTに代表される生成AIが医療分野でも注目を集めている。しかし、これらのAIが実際の医療現場でどの程度の診断能力を発揮するのか、また医師との比較においてどのような特徴があるのかについては、包括的な分析が行われていなかった。そこで研究グループは今回、生成AIの医療に関する診断能力について系統的レビューとメタ解析(複数の研究結果を統計的な手法で1つにまとめ、より確かな結論を導き出す分析方法)を実施した。
生成AIと非専門医の診断能力、多岐にわたる診療科を含む解析で「有意差なし」
研究では、2018年6月~2024年6月までに発表された83報の研究論文を分析対象とした。その中で数多く評価されていたのはGPT-4(54件)とGPT-3.5(40件)で、その他にはGPT-4o、Claude3、Gemini1.5pro、Llama3 70Bなどの最新モデルも含まれていた。評価された医療分野は一般内科が27件と最も多く、次いで放射線科が16件、眼科が11件、救急医療が8件など、多岐にわたった。
分析の結果、生成AIの平均診断精度は52.1%で、医師全体と有意差がなかった(医師全体の方が9.9%高い)。特に非専門医と生成AIの診断精度の差は僅かで、両者の有意差はなかった(非専門医の方が0.6%高い)。一方で、専門医は生成AIよりも診断精度が15.8%高く、有意差があった。ただし、GPT-4、GPT-4o、Claude3、Gemini 1.5 pro、Llama3 70Bなどの最新モデルは、非専門医と同等からそれ以上の診断精度を示した。
医学教育や非専門医の診断支援などでの生成AI活用に期待
今回の研究により、生成AIは専門医の完全な代替とはならないが、医学教育での活用や非専門医の診断支援、医療資源の限られた地域での診断補助などでの活用が期待できることが明らかになった。
「今後は、より複雑な臨床シナリオでの評価や実際の医療記録を用いた性能評価、AIの判断根拠の透明性向上、多様な患者群での検証など、さらなる研究が必要だ」と、研究グループは述べている。
▼関連リンク
・大阪公立大学 プレスリリース