自己診断にChatGPTを用いた場合の、再現性や受診勧奨の程度に関する初の研究
東京医科歯科大学は9月19日、生成AIのChatGPTを用いた自己診断において、5日に渡り同じ質問を繰り返すことで、疾患によって正答率や再現性にばらつきがあり、特に広範囲に症状を生じる疾患において正答率および再現性ともに低いことを示したと発表した。この研究は、同大統合イノベーション機構オープンイノベーションセンター医療デザイン部門の藤田浩二教授と同大大学院医歯学総合研究科整形外科学の黒岩智之医師らの研究グループによるもの。研究成果は、「Journal of Medical Internet Research」オンライン版に掲載されている。
近年、目覚ましい発展を遂げるAIの中でも、特に自然言語処理(Natural Language Processing:NLP)が大きな注目を集めている。ChatGPTは、OpeAI社が2022年11月に公開したAIチャットボットで、代表的な生成AIの1つ。NLPを使用して自然な会話を作成できる最先端のチャットボットであり、爆発的な広がりを見せている。すでに、生成AIによるチャットボットを利用して病院受診前に自己診断を行う患者も増えてきており、今後、増加の一途を辿ることが予想される。しかし、自己診断におけるChatGPTの正答率を評価した研究はいくつかあるものの、その再現性や受診勧奨の程度に関する研究はなかった。
一般的な整形外科疾患の質問をし、正答率・再現性と受診勧奨程度を評価
そこで研究グループは、ChatGPTによる一般的な整形外科疾患の自己診断の正答率・再現性と、受診勧奨の程度を評価することを目標に研究を進めた。今回の研究では、5人の研究者が、5つの整形外科疾患に関する質問を、5日間にわたり、全く同じ文面でChatGPT(ver. 3.5)に繰り返し質問し、その回答結果を検証した。
最低正答率4%、再現性「悪い」、医療機関受診の推奨は全体の13%程度
検証の結果、疾患により正答率、再現性は異なった。最も低いものでは正答率4%となり、再現性も「悪い」と評価された。それにも関わらず、回答内にて医療機関受診をしっかりと推奨していたものは全体の13%程度に留まったという。また、質問の仕方によって正答率が異なることを見出し、より好ましい質問の形式を提示した。
今後、病態ごとにより適切な質問方法を探していく
生成AI技術が進化し、爆発的な広がりを見せる昨今、痛みや不安を抱えた患者が生成AIに自らの症状を相談して自己診断を行うことが予想される。しかし、生成AIがハルシネーション(幻覚、問いかけに対して事実に基づかない情報を生成する現象)を生み出し、使用者を混乱させうるという大きな問題も未だ残っている。
今回の研究では、代表的な生成AIであるChatGPTの医療利用における問題点を浮き彫りにした。このことにより、生成AIの信頼性ならびに患者を害するリスクについての議論を生み出し、患者らへの啓発や、さらなるソフトウェア開発・進化の土台となることが期待される。研究グループは今後、より多くの病態を対象に多岐にわたる質問形式を用いた研究を行うことで、病態ごとにより適切な質問方法を探していく予定だという。また、ChatGPT以外の生成AIや新しいバージョンのChatGPTを用いた研究を進めることで、得られる信頼性がどう変化するのかも評価していく予定だ、と述べている。
▼関連リンク
・東京医科歯科大学 プレスリリース