著書紹介:Unsupervised Feature Extraction Applied to Bioinformatics: A PCA Based and TD Based Approach (Y-h. Taguchi)

ここ10年程、僕は「主成分分析やテンソル分解を用いた教師無し学習による変数選択」という方法を提唱し、バイオインフォマティクスの様々な問題に適用してきた。この本はその集大成の様な本である。本であれば売れないといけないので、線形代数の基礎や行列分解、テンソル分解の紹介にかなりのページ数を割かないといけなかったが、本当に読んで頂きたいのは後半の200頁の4章から7章の部分であり、そこには僕が過去10年くらいの間にやった同手法の応用例を(再解析も含めて)豊富に解説した。計算量も少なく、簡単に使える方法だと自負しているので、この本の出版を機会にもっといろいろな人に試してもらえるとうれしいです。
具体的には、遺伝子発現プロファイルやプロモーターメチル化、ヒストン修飾などのオミックスデータのような高次元のデータでサンプル数が少ない場合に、重要な遺伝子を選択することを目的とする。この様なことは従来はt検定やANOVAなどの統計検定や疎性モデリングの様な教師あり学習で実行されるのが通例であったが、僕は教師無し学習こそ採用されるべきだと常々考えていた。それを実際に実行したら結構うまくいったということである。
最後に、英語で単著をだすというのは日本人には荷が重く、僕もすごく苦労した。一方で、僕はいわゆる高IF誌に論文を書いたことはない。ただ、世界中でこれをやっているのは自分だけという自負はあった。シュプリンガー社はそれを認めてくれたのだと思う。会員諸氏も欧米の後追いでない研究をすれば、流行ではなくても英語の単著を出せるといういい前例になったと思っているので、ぜひ、その方向性で頑張ってみてはいかがだろうか?こういうことは定職(=期限付きではない職)でないとなかなか難しいことではあるのだけれども。

Unsupervised Feature Extraction Applied to Bioinformatics: A PCA Based and TD Based Approach
https://doi.org/10.1007/978-3-030-22456-1
Y-h. Taguchi (著)
321ページ・定価 12,354円(電子版)/ 21,059円(ハードカバー)
2019年8月・シュプリンガーインターナショナル

公開日:2019.08.26