大腸がん確率に寄与する細菌の個別判定、既存の解析手法では不可能
東京工業大学は4月11日、「説明可能なAI」を活用し、腸内細菌パターンに基づいて大腸がんを詳細に分類する手法を開発したと発表した。この研究は、同大生命理工学院 生命理工学系の山田拓司准教授、リザ・リナザル大学院生(修士課程、研究当時)、大阪大学 大学院医学系研究科医学専攻 ゲノム生物学教室・がんゲノム情報学の谷内田真一教授らの研究グループによるもの。研究成果は、「Genome Biology」に掲載されている。
画像はリリースより
(詳細は▼関連リンクからご確認ください)
近年の研究により、腸内細菌群集構造の変化と大腸がんの進行との関連が明らかになっている。大腸がん患者におけるフソバクテリウム・ヌクレアタム(Fusobacterium nucleatum)やパルビモナス・ミクラ(Parvimonas micra)などの特定の細菌の存在量の増加は、大腸がん発症との関連性が報告されている。このような便サンプル由来の細菌情報をバイオマーカーとして利用した大腸がん診断方法の開発も進んでいる。
これまでの大腸がんのバイオマーカー探索や疾患予測では、機械学習モデルがすでに利用されている。機械学習のさまざまなアルゴリズムの中でも、特に「Random Forest」は、予測力や得られた結果の説明の簡易さなどから、研究でよく使用されている。機械学習を使ったこれまでの研究報告でも、大腸がんバイオマーカーの最有力候補として、従来の研究と同様に、フソバクテリウム・ヌクレアタムが挙げられている。
機械学習を用いたこれまでの解析手法では、大腸がんと関連のある細菌の特定に加え、細菌群集全体を考慮した疾患確率の計算も可能だ。しかし、大腸がん確率に寄与するのがどの細菌なのか、それぞれの患者で個別に明らかにすることはできていない。大腸がん患者の中には、フソバクテリウム・ヌクレアタムやパルビモナス・ミクラのような、大腸がん患者一般に特徴的な大腸がん関連細菌は多く存在しないが、別の細菌が健常と大腸がんとの区別を示す場合がある。このように、大腸がん患者の間でも「大腸がんらしさ」に寄与する細菌が異なっているが、これまでの方法では「患者ごと」という解像度で大腸がんの特徴を捉えることができなかった。
大腸がん予測における特定の細菌の影響を知るためにゲーム理論のSHAPを利用
そこで研究グループは今回、「説明可能なAI」を活用し、腸内環境情報からの大腸がん予測において、重要な情報を層別化し取得する手法を開発した。これは、ゲーム理論の「シャプレー値」に由来するSHAP(Shapley Additive Explanations)と呼ばれるフレームワークを利用したもの。
シャプレー値とは、ゲーム理論において、どのようにすればチームを構成するプレイヤー同士で公平に配当を分配できるかを示す値のこと。これと同様に、今回は「大腸がん予測における特定の細菌の影響」を示すためにSHAPを使用した。
SHAP値で健常と大腸がんを判別、大腸がん高確率のサブグループは関連菌「多」
その結果、SHAP値を2次元空間に投影することで、健常者と大腸がん患者を明確に判別できることを発見した。さらに、このSHAP値を用いて大腸がん患者をクラスタリング(層別化)した結果、大腸がん患者が4つのサブグループを形成していることが明らかとなった。
この事象を異なる国由来の5つの主要な公開大腸がんマイクロバイオームデータセットを用いて検証し、データセット間で一貫した結果を得ることに成功した。また、大腸がん確率の値が最も高いサブグループは、大腸がんに関連する細菌も多いことを明らかにした。
よりパーソナライズされた⼤腸がん診断とバイオマーカー同定の実現に期待
細菌と疾患の関連性の研究において、機械学習アルゴリズムの利用により疾患の診断に向けた研究が増加している。今回の研究で提案された新規解析手法は、より層別化されたマイクロバイオームデータを探索し、潜在的な疾患サブグループとそれに関連する潜在的バイオマーカーを見つけ出すのに非常に有益と考えられる。
「新しい解析手法は、今後さらなる研究を通して、よりパーソナライズされた大腸がん診断の実現に貢献するものだ。また、大腸がんだけでなく将来は潰瘍性大腸炎や糖尿病、肝臓病など、腸内細菌が関連する他の疾患にも同様に対応できると期待される」と、研究グループは述べている。
▼関連リンク
・東京工業大学 東工大ニュース