生命の情報の多様さや、計測技術の違いから、これまで幾つものバイオデータベースが公開・運用されてきた。膨大な数のそれらデータベースを研究者個人が全て把握することは不可能となってきたため、データベースの統合が次の課題になった。
近年、物理的に異なる場所で公開されたデータを相互に参照し、横断的な検索を可能とするセマンティックウェブ技術をバイオデータベースに導入する動きが活発になっている。今後は統合された様々なデータベースを巨大な1つのデータベースとして扱う時代に向かうだろう。
では、データベースが網羅的になることは、生物の情報から知識を抽出するデータ解析において何か変革をもたらすだろうか?本セッションでは、データベースの研究者と、データ解析、機械学習の研究者を交え、Web上のデータベースと手元のデータがシームレスに接続された未来では、どのようなデータ解析が実現可能となるのかを議論したい。
ライフサイエンス統合データベースセンター(DBCLS)では、様々な生命科学・医科学のデータベースを統合的に利用するための技術開発を行っている。これまで、国際会議BioHackathonの主催等により主要なデータベースのRDFによる標準化を国際連携のもと推進し、EBI RDF PlatformやNBDC RDF Portalなどで公開してきた。ここでは現在までに利用可能となったリソースと、それらの活用における課題や展望について紹介する。
遺伝子、ゲノム、タンパク質や疾患など、生命科学データはドメインごとに多様な情報とその表現形式を持つため、ドメイン横断的にデータを参照・利用することは容易ではない。この課題を克服するため、DBCLS/EBI/SIB などのデータベース機関が中心となって、セマンティック・ウェブ技術を用いたデータの整備が進められている。DBCLSではセマンティック・ウェブ技術を生命科学データベースに適用するための技術開発を進める一方で、生命科学研究者を対象としたデータベース構築にも取り組んでいる。演者は公共のNGSデータを用いた2つの二次データベース、シーケンス実験のメタデータのデータベースであるQuantoと、転写因子結合サイトを網羅するChIP-Atlasの構築とRDF化を担当している。本講演では、これらの実例を通してセマンティック・ウェブ技術の導入によるデータ統合のメリットと課題について議論したい。
バイオデータベースのRDF化・統合化により、遺伝子-タンパク質など、異なる種類の情報は互いに接続され、巨大な情報ネットワークが構築される。このようなグラフ構造はHeterogeneous Information Networks(HIN)と呼ばれ、HINに特化したアルゴリズムが幾つも提案されている。ここではHINを扱うシンプルな方法として、Meta-pathを紹介し、どのようにオミックス解析に応用できるかを考える。
ネットワークに関する従来の研究は、同種の辺および頂点から構成される単純なネットワークを対象とするものが多かった。しかし現実世界においては、複数種類の辺および頂点から構成されるネットワークとして表現されるものが少なくない。本講演では、そのようなheterogeneousネットワークを扱った研究事例について紹介する。