招待講演

ゲノムデータ解析パイプラインGenomonとがん臨床シークエンス研究
~スパコンと人工知能による加速~

宮野 悟
東京大学医科学研究所ヒトゲノム解析センター


東大医科学研究所は2011年から、ヒトゲノム解析センターのスーパーコンピュータシステム活用し、がんを対象とした全ゲノムシークエンスに基づく臨床ゲノムシークエンス体制を構築してきた。Genomon (https://github.com/Genomon-Project)は、血液腫瘍をはじめとしてがんゲノム研究で実績のあるデータ解析パイプラインで、WGS解析、WES解析、RNA-seq解析、SV解析などが可視化も含めスムーズにできるようになっている。経験ベイズ理論により、理論的に妥当でかつ実用的な変異コールルールを算出するEBcallやRNAシークエンスデータからの融合遺伝子検出などが導入されている。さらにイルミナシークエンサーデータの盲点であったミッドレンジ(10bp~1000bp)の構造異常の検出が高精度にできるようになった。その結果、全ゲノムシークエンス解析による成人T細胞白血病リンパ腫(ATL)のゲノム変異の全貌が解明され、さらにPD-L1遺伝子の3′非翻訳領域の構造異常とがん細胞が免疫から逃れるメカニズムの解明など、Genomonによるがんゲノミクスの成果もでてきた。こうして、ヒトゲノム解析センタースパコンSHIROKANEを使ったGenomonとデータマネージメントシステム、生体認証によるセキュリティ管理、網羅的多地点カメラによる安全・データ事故管理などのシステムを構築してきた。しかし、数千から数百万のゲノム変異の翻訳・解釈はボトルネックになっており、人海戦術で臨むしかなかった。そのため、2015年7月に、IBMのWatson for Genomics研究用として導入し、ビッグデータを活用したゲノム変異の解釈・翻訳が人工知能技術によりどの程度有効であるかを検証してきた。大腸がんのマルチリージョナル全ゲノム解析で始まったこのプロジェクトだが、Watson for Genomicsの導入により、Myeloidパネル解析及び全エクソーム解析を使った血液腫瘍の臨床シークエンスも2年以上の実績を積んできた(時系列でシークエンス解析を実施している)。これらのシークエンスには、臨床シークエンス専用に用意したHiSeq2500, NextSeq, MiSeq, Ion Proton, Ion PGMなどを使い、サンガー法でバリデーションをしてきた。専用のDigital PCRも導入した。Tumor Boardを開催し、様々な観点からの議論も行っている。多くのノウハウがこの7年ほどの間に蓄積していると考えている。Turn around timeは5日間ほどになった。がんの理解の難しさだけでなく、日本において非認可の分子標的薬の問題、パネルを使った解析の限界(2020年にはパネル解析は消滅すると言われているが)、WGSの重要性、日本における治験情報の非集中化の問題、薬機法、時間との闘いなど、様々な課題に取り組んできた。医科学研究所のシステムの概要とプラクティスを通した経験についてお話する。


キーワード:ゲノムデータ解析、がん臨床シークエンス、人工知能、スーパコンピュータ