患者の生の声から重要度の高い有害事象をとらえるには?
慶應義塾大学は10月12日、患者がインターネット上のブログに投稿したテキストから、深層学習を用いて、日常生活に支障を及ぼす重症度の高い事象に焦点を当てた有害事象シグナルの抽出手法を開発したことを発表した。この研究は、同大大学院薬学研究科博士課程3年の西岡諭史氏、同大学薬学部の堀里子教授らの研究グループと、奈良先端科学技術大学院大学の荒牧英治教授との共同研究によるもの。「Scientific Reports」に掲載されている。
画像はリリースより
(詳細は▼関連リンクからご確認ください)
抗がん剤は多様な副作用をもたらすことが知られており、これらの副作用の早期発見と重症化予防を通じた副作用マネジメントは、治療の成功や患者の生活の質(Quality of Life:QOL)を維持するために欠かせない。医薬品と有害事象との因果関係は医療専門家によってのみ評価可能であるため、より良い副作用マネジメントを達成するためには、患者が経験する有害事象をいかに即時かつ的確にとらえ、医療者につなげられるかが鍵となる。一方、医療者が日常診療を通してとらえる有害事象の頻度や症状は、患者が直接報告する場合に比べて過小評価されているとの指摘もある。このような背景から、患者の生の声から重要度の高い有害事象を効率的にとらえて、医療者による精査につなげていく新しいアプローチが期待されている。
最新の深層学習手法を活用し、生活の支障度に基づく有害事象シグナルを抽出
近年、機械学習技術の発展は目覚ましく、医療分野においても活用可能性が模索されている。患者の声に焦点を当てると、ソーシャルメディアを情報源として、医薬品の市販後安全性調査や安全性シグナルの早期検出に活用しようとする研究が試みられてきた。その一方、同技術を個々の患者の「現在進行形の」副作用マネジメントに活用するための研究は限られている。
研究グループではこれまでに、患者テキストから特定の副作用(手足症候群)を抽出するシステムや、患者が抱える悩みを体系的に抽出・分類するシステムを開発してきた。これらの経験をもとに、最新の深層学習手法を活用することで、口語主体の患者テキストが対象であっても、その文脈をとらえて患者が経験する日常生活の支障度に応じた有害事象の抽出が可能になると考えた。日常生活での支障を伴う重症度の高い事象は、医療者による精査の必要性が高いため、抗がん剤の副作用マネジメントの質を向上できることが期待される。これらの背景から、患者がソーシャルメディア上で発信したテキストデータから、生活の支障度に基づく有害事象シグナルの抽出技術の開発を目指した。
2,272の乳がん患者投稿を、3つの自然言語処理モデルで訓練・評価
今回研究グループは、ウェブ患者コミュニティー「ライフパレット」(株式会社メディエイド運営)に投稿された患者ブログのうち、乳がん患者が投稿した2,272記事を用いて、研究を行った。あらかじめ妥当性・再現性を担保したガイドラインに則り、ブログ記事を構成する各文を「有害事象が発現かつ生活への支障が明確に読み取れる文(AE-L)」「有害事象が発現しているものの生活への支障はない又は読み取れない文(AE-nL)」「有害事象に関係しない文」の3つに研究者が分類し、機械学習に使う訓練・評価用のデータセットとした。研究に使った機械学習モデルは、深層学習手法に分類され、関連領域で高い性能・汎用性が報告されているBERT、ELECTRA、T5を選択した。また、効率よくAE-Lを抽出するため、複数のアプローチも検討した。
T5が最良の抽出性能、高頻度で訴えがあったのは「痛み・痺れ」「倦怠感」など
実験の結果、アプローチ1(AE-Lのみ、もしくはAE-LとAE-nLの両方を特定)において、より長い文章を入力として処理できるT5が最もよい抽出性能を示した。そのF1スコア(二値分類タスクの評価指標)は、AE-L抽出タスクで0.557、AE-LとAE-nLの両方(つまり全ての有害事象シグナル)を抽出するタスクで0.811だった。また、患者ブログに頻度高く訴えのある有害事象は「痛み・痺れ」「倦怠感」「発熱」「吐き気」であり、医療者報告で過小評価が報告されている事象と類似傾向を確認した。
「開発した有害事象シグナル抽出手法の実装を目指して、訓練データの質と量の改善を通じて機械学習モデルの性能向上を図るとともに、患者と医療者双方の意見を取り入れ、現在進行形の抗がん剤の副作用マネジメントに利活用するための仕組みの開発・評価を進めていきたい。今回の研究が、患者の声を医療の中心に位置づける大きな流れの一端を担うことを期待している」と、研究グループは述べている。
▼関連リンク
・慶應義塾大学 プレスリリース