医療従事者の為の最新医療ニュースや様々な情報・ツールを提供する医療総合サイト

QLifePro > 医療ニュース > テクノロジー > ChatGPTが示す自己診断、疾患により正答率や再現性にばらつき-東京医歯大

ChatGPTが示す自己診断、疾患により正答率や再現性にばらつき-東京医歯大

読了時間:約 2分8秒
このエントリーをはてなブックマークに追加
2023年09月22日 AM10:55

自己診断にChatGPTを用いた場合の、再現性や受診勧奨の程度に関する初の研究

東京医科歯科大学は9月19日、生成AIのChatGPTを用いた自己診断において、5日に渡り同じ質問を繰り返すことで、疾患によって正答率や再現性にばらつきがあり、特に広範囲に症状を生じる疾患において正答率および再現性ともに低いことを示したと発表した。この研究は、同大統合イノベーション機構オープンイノベーションセンター医療デザイン部門の藤田浩二教授と同大大学院医歯学総合研究科整形外科学の黒岩智之医師らの研究グループによるもの。研究成果は、「Journal of Medical Internet Research」オンライン版に掲載されている。

近年、目覚ましい発展を遂げるAIの中でも、特に自然言語処理(Natural Language Processing:NLP)が大きな注目を集めている。ChatGPTは、OpeAI社が2022年11月に公開したAIチャットボットで、代表的な生成AIの1つ。NLPを使用して自然な会話を作成できる最先端のチャットボットであり、爆発的な広がりを見せている。すでに、生成AIによるチャットボットを利用して病院受診前に自己診断を行う患者も増えてきており、今後、増加の一途を辿ることが予想される。しかし、自己診断におけるChatGPTの正答率を評価した研究はいくつかあるものの、その再現性や受診勧奨の程度に関する研究はなかった。

一般的な整形外科疾患の質問をし、正答率・再現性と受診勧奨程度を評価

そこで研究グループは、ChatGPTによる一般的な整形外科疾患の自己診断の正答率・再現性と、受診勧奨の程度を評価することを目標に研究を進めた。今回の研究では、5人の研究者が、5つの整形外科疾患に関する質問を、5日間にわたり、全く同じ文面でChatGPT(ver. 3.5)に繰り返し質問し、その回答結果を検証した。

最低正答率4%、再現性「悪い」、医療機関受診の推奨は全体の13%程度

検証の結果、疾患により正答率、再現性は異なった。最も低いものでは正答率4%となり、再現性も「悪い」と評価された。それにも関わらず、回答内にて医療機関受診をしっかりと推奨していたものは全体の13%程度に留まったという。また、質問の仕方によって正答率が異なることを見出し、より好ましい質問の形式を提示した。

今後、病態ごとにより適切な質問方法を探していく

生成AI技術が進化し、爆発的な広がりを見せる昨今、痛みや不安を抱えた患者が生成AIに自らの症状を相談して自己診断を行うことが予想される。しかし、生成AIがハルシネーション(幻覚、問いかけに対して事実に基づかない情報を生成する現象)を生み出し、使用者を混乱させうるという大きな問題も未だ残っている。

今回の研究では、代表的な生成AIであるChatGPTの医療利用における問題点を浮き彫りにした。このことにより、生成AIの信頼性ならびに患者を害するリスクについての議論を生み出し、患者らへの啓発や、さらなるソフトウェア開発・進化の土台となることが期待される。研究グループは今後、より多くの病態を対象に多岐にわたる質問形式を用いた研究を行うことで、病態ごとにより適切な質問方法を探していく予定だという。また、ChatGPT以外の生成AIや新しいバージョンのChatGPTを用いた研究を進めることで、得られる信頼性がどう変化するのかも評価していく予定だ、と述べている。

このエントリーをはてなブックマークに追加
 

同じカテゴリーの記事 テクノロジー

  • モバイル筋肉専用超音波測定装置を開発、CTのように広範囲描出可能-長寿研ほか
  • ヒトがアンドロイドの「心」を読み取り、動きにつられることを発見-理研
  • 生活習慣病の遺伝的リスクと予防効果の関係、PRS×AIで評価-京大ほか
  • 精神的フレイル予防・回復支援「脳トレシステム」開発-愛知産業大ほか
  • ChatGPTと放射線科医、骨軟部放射線領域の診断精度を比較-大阪公立大ほか