ブログ

早くも年末です。今年もCOGNANOは粘り強く成長することができました。みなさまありがとうございました!

さて、12月はAI会議最高峰として名高いNuerIPSに参加してまいりました。発表者は鶴田さんと山崎さんで自分は応援団です。COGNANOが9年にわたり積み重ねてきたデータセットの一部を公開するにあたり、高評価されての採択です。

Image
演題はChatGPTなどLarge Language Model(LLM)が多く、自動運転アルゴリズムや地球環境エネルギーなどセッションも主流である一方、驚くべきことに参加者の10%ほどはバイオに関連していた。バイオ系ワークショップは大盛況

参加者1万5千人を見ると、Amazon, Microsoft, Meta, Google などのビッグテック社員に加え、著名な大学(MIT, Stanford, Harvard, UC Berkeley, UCLA, モントリオールMILA)からの参加者が多く、アジア人がよく目立つ。中国系とインド系ばかりで、覚悟していましたが日本人はほとんどいない。ChatGPTの成功に影響された言語モデルの発表が多くを占める中、ビッグテックは並行してバイオ関連にも進出しており、やる気マンマンです。有望視されるバイオビジネスを狙って凄まじい予算を投入し、人材雇用を盛んにおこなっている感じが漂っています。

ITテックはリアルバイオデータを自社で作出することができないので、オープンデータベースから出発するしかない。いきおいAlphaFoldやRosettaなどの3次元構造を基盤とした創薬予測が多くなり、3次元タンパク質へのケミカルフィッティングを研究する傾向があります。そもそもケミカルは副作用の予測が難しい背景(オフターゲット効果)があり、新薬として承認される可能性は0.04%です。この数字は宝くじレベルと言ってもいいでしょう。このような背景があるのでAI への期待は理解できます。理路はわかるのですが、化合物予測がどれくらい難しいか、バイオの知識があるので、道のりの遠さを実感してしまいます。IT系に混じってバイオ系グローバル企業も極めて少数参戦しており、英国アストラセネカ社はAIへ本格進出する格好でブースも出していました。

COGNANOを始めた当時、ぼくたちと似た研究を誰かがやっているのではないか… と毎日考えていました。「こんなにも重要な研究をやらないはずはない」と。ところが今日、実際に会場の熱気の中を歩き回り、抗原抗体ラベルに関する大規模データセットは存在せず、COGNANOに似た発表がないことを確認しました。ITエンジニアからみると生まれて初めて見たデータであり、多数のエンジニアの訪問を受け、鶴田、山崎の二人が質問に答え続けました。

バイオサイエンスは「フェアなパラメータ」のデータを得ることができません。生命は静止した存在ではなく、物質を基盤とし多階層の現象から成り立つダイナミックな空間です。無数のパラメータから成り立っている以上、バイオ研究者は限定仮説に絞って検証を繰り返すしかアプローチの方法がありません。仮説検証のパラメータを実験者自身が設定するわけですから、すでに公平ではありません。

例えば、こんな統計があったとします。「コーヒーを一日2杯以上飲んでいる人は、1杯以下の人に比べて長生きである」この統計結果は、まるでコーヒーが体に良い?ように聞こえます。しかし、「コーヒーを複数回飲むゆとりのない人は比較的寿命が短い」のかもしれないし、「コーヒーのような強い香りを受け付けないほど体が弱っている」グループが、統計値を引き下げているのかもしれません。残念ながら多くの場合、「コーヒーは長寿に貢献する」という発表になってしまいますし、マスコミもわかりやすい報道を好みます。

「現象論」を避けるため、遺伝子工学が主役となりました。分子を物質ベースで研究するので、文脈的な間違いを減らせる(本物のサイエンスに近づく)と期待されたのです。CRISPRなど遺伝子改変技術は、生物から遺伝子を引いたり足したりすることで、遺伝子機能を一義的に推定できます。

しかし、この流れによって別の問題が発生します。部品研究では、無数の部品(分子)が構成するコンテキストは解けない、という問題です。危機感を持たなければならなかったのに、自分(筆者)はどうしたら良いのか思いつくことができなかった。アニメソングに「わからないまま終わる、そんなのはイヤだ(やなせたかし作詞)」というリリックがあります。どうやったらわかるのか?わかるのは誰なのか?ぼくの場合はもがいているうちITエンジニアと巡り合い、データを共有(共感?)してもらえるようになり、気づいたらAI会議に参加していた… これは望外の喜びと言えるでしょう。ぼくにとっては、NeurIPS参加は「わかりたい」人々へのビーコンになれたことを実感した瞬間でした。

Alpha GOはどうやって人類のチャンピオンに勝ったのか?日本棋院に収蔵されていた3千年にわたる棋譜をもとに「次の一手」の勝利への貢献度をコンピュータが学習し、有効手を選択することに成功したと聞きます。勝ち負けの定義が明確なボードゲームであるが故に、勝ちを1、負けを0とラベルしてトレーニングすることが可能です。DeepMindのDavid Silver博士は、人間の勝敗レベルを超越した後、さらに野心的な取り組みを行いました。複数のコンピュータに囲碁を自動対戦させ、「棋譜」プロファイルを新規に創出し、人間(というバイアス)に制限されないトレーニングデータを新しく与えて有効手を予測させるとどうなるのか… という実験です。このアルゴリズムをAlpha GO-ZEROと言います。ゼロはヒトの対戦データが入ってないという意味です。

実験の結果、Alpha GO-ZEROはAlpha GOに圧勝しました。この事実から、人類が蓄積した囲碁空間は、数学的可能性の一部に過ぎなかっただろう、と推定されます。人間が探究してきた概念以外に、広大な可能性が広がっている。このエピソードは他人事ではありません。生命階層の無限空間にどう立ち向かうかは、囲碁以上にタフな課題なのです。自分の非力さを噛みしめ、この冒険に共に出かける仲間を探さなければ。

今COGNANOは、歴史上初めて、データジェネレータとして生きているアルパカを用いて、無限の「分子間相互作用」データを創出しています。これが「ぼくたちのAlpha GO」と言える取り組みです。このゴールは完全自動創薬の実現とも言えます。そして来るべき展開、すなわちCOGNANOにとってのAlpha GO-ZEROとは… 地球上で今ぼくたちが見ている生物の世界は、無数の可能性の中から選ばれた、たった一つの進化の結果であり、別の道筋が無数にあったはずです。生命とは遷移しつつ常態を保つ存在であり、その基本原理は「分子間相互作用」です。

はるか昔、異なる分子が出会って作用した瞬間に、生命が始まった。分子間相互作用を理解することができれば、実際に宇宙人に遭遇しなくても、コンピュータの中で「予想外の進化をとげた、見たことのない生命」と出会える。アンドロメダ星雲では、もっと冴えた光合成反応が普通かもしれない。COGNANOのデータセットが、生命の原理を理解するための最速トラックであってほしい。

Image
人類が発明した最も困難なボードゲーム囲碁。19x19のマス目のどこに打ってもよい。全ての「手」の可能性は大きすぎて、スパコンでさえ検証不可能。囲碁の可能性より、抗体アミノ酸配列の空間の方がはるかに大きく、しかも勝敗の区別は難しい。COGNANOはこの難問に挑む。図はAlphaGOと李セドル9段の対戦第4戦の棋譜。

熱気に煽られ楽しい時間はあっという間に過ぎていきました。2024年のNeurIPS再訪を誓って会場を後にしたのでした。