長鎖リードによる構造多型の解析、大量の高品質ゲノムDNA取得が課題だった
東北大学は9月26日、これまで約5万人のゲノム解析を通して、比較的小さなサイズのバリアントの位置や頻度を収載したデータベースを構築・公開してきた東北メディカル・メガバンク機構(ToMMo)が、最新型の長鎖リードシークエンサーを用いて333人の全ゲノム解析を行うことで、50塩基対を超える大きな挿入・欠失(構造多型)を詳細に解析したと発表した。この研究は、同大東北メディカル・メガバンク機構基盤情報事業部の木下賢吾事業部長らの研究グループによるもの。研究成果は、「Communication Biology」に掲載されている。
ヒトゲノムには小さなものから大きなものまで、さまざまなバリアントが存在する。ToMMoではこれまで「短鎖リードシークエンサー」を用いて、5万人の一般住民のゲノムを解析し、多数の一塩基バリアント(SNV)や小さな挿入・欠失(INDEL)の情報をリファレンスパネルとして公開してきた。一方、このような小さなバリアント以外にも、ヒトゲノムには特に構造多型と呼ばれる大きなバリアントも多数存在し、個人の体質や疾患発症に関わっていると考えられている。しかし、「短鎖リードシークエンサー」による解析では構造多型を精確に捉えることはできず「長鎖リードシークエンサー」による解析が必要だった。さらに長鎖リード技術による安定した全ゲノム解析を行うためには、いかに大量の高品質ゲノムDNAを準備するかが課題となっていた。
増殖T細胞由来の高品質ゲノムDNAから、333人の長鎖リードシークエンス解析を実施
今回の研究では、ToMMoが樹立・保管している2種類の培養細胞のうち増殖T細胞から、抽出直後の断片化の少ない高品質ゲノムDNAを得た。増殖T細胞は試験管内で増やすことができるため、バイオバンクに保管されているDNA試料を消費することなく、大量のゲノムDNAを新たに取得することができた。増殖T細胞は、他のゲノムプロジェクトで用いられることの多いリンパ芽球様細胞株よりも短期間で効率良く樹立することのできる細胞で、東北メディカル・メガバンク計画バイオバンクの特色となっている。
高品質ゲノムDNAにより、安定した品質の長鎖リードシークエンス解析が可能となったため、333人の長鎖リードシークエンサー(Oxford Nanopore PromethION)による解析を実施した。ゲノムDNAを最適な条件で均一に断片化することで、検体ごとのリード長や得られるデータ量のばらつきを少なくできるよう工夫し、50塩基対を超える大きな挿入・欠失(構造多型)を詳細に解析した。一般住民集団を対象とした構造多型解析としては日本初の成果であるという。
親子間の解析結果をもとに精度を検証、日本人構造多型の位置・頻度をデータベースで公開
今回の解析対象となった333人は、家系情報付きである三世代コホート調査の長所を活かし、すべて成人とその両親からなる3人組(トリオ)の組み合わせでシークエンス解析を行った。子にあたる成人が、両親の遺伝子を受け継いでいることを利用して親子間の解析結果をもとに「答え合わせ」をすることで精度検証を行い、高い精度でゲノム構造多型が検出できていることを報告した。
この研究で同定した日本人におけるさまざまな構造多型の位置・頻度は、日本人構造多型参照パネルJSV1として2021年12月に公開データベースjMorp上で公開された。公開情報では、一般集団のゲノム多型の頻度情報を計算するため偏りがないよう血縁関係のある検体を除き、両親(合計222人)のみを対象としている。見つかった構造多型それぞれに、上記の精度検証結果を付与している。一般住民団を対象に長鎖リード解析を行い、構造多型情報を公開した事例は日本初、海外でも数例認められるのみだという。
小さなサイズのバリアント情報だけではわからなかった疾患の原因探索、がんゲノムにも
今回の長鎖リードシークエンサーによるゲノム構造多型の解析・公開により、SNVや短いINDELの情報だけでは分からなかった、日本人における疾患の原因探索やがんゲノム解析への応用が期待できる。「今後は、解析対象人数を増やすことで頻度の低い構造多型まで網羅するとともに、重複や逆位といったさまざまなパターンの構造多型解析への拡張を検討している」と、研究グループは述べている。
▼関連リンク
・東北大学 プレスリリース