今回は、6月10~14日London Tech Week(LTW)に登壇したお話をします。日本貿易振興機構(JETRO)さまの肝煎りで Japan Boothに出展しました。日本の候補ベンチャー20社から6社が選考され、バイオ系出展はCOGNANO1社です。
以前ブログで触れたように、わたしは京大卒業後医師になり、のちバイオ医学系の基礎研究者として修行し、40歳から10年ほど考えたあげく、ようやく突破口を見つけてStartup創業を決心したのでした。ITと融合する活動は、5年ほどです。今回初めて英語で「非バイオ」でトークすることになり、初心者マインドの出展です。
事前のオンライン打ち合わせでロンドン駐在JETRO担当者さま(伊藤さん、吉田さん、榊原さん、蓮井さん…)に、LTWにはどんな人々が来るのか、バイオ系の話でも理解してもらえそうか、こわごわ聞いたところ、「COGNANOのコーポレートサイトにアップされている、日本語のピッチビデオのような感じでOKですよ!」と。英語ピッチをオンラインでメンタリングいただき、至れり尽くせりとはこのことか。
JETROの方には、ブース出展はじめイベント企画諸々、全てのお世話をしてくださったこと、心よりお礼を申し上げたいと思います。あっという間に日程が迫り、ロンドンからの励ましをココロの頼りとして出国しました。
LTWでのミッションは2つありました。
- 世界で初めてのバイオ(抗体)ビッグデータから生み出される巨大な価値を伝えたい
- わたしたちのBio-IT融合プロジェクトに時間とお金がかかるのは間違いないので、資金やIT技術でジョインしてほしい(特にビジネスパートナーを探したい)
会場は、毎日学生から投資家まで1.5万人の来場者でごった返しています。ITやマシンラーニング(ML)のビジネスパーソンが多くを占めるなか、抗体というデータ資源はほぼ初めて聞く概念でしょう。ピッチではCOGNANO技術の僅かしか説明できなかったのですが、Large Language Model(LLM)が創薬やヘルスケアに直結するシナリオはかなり珍しかったようで、ピッチのあと多数ブースへ訪問いただきました。
バイオ領域でもカルテ情報や論文を言語的にAI処理することはすでに行われているのですが、抗体アミノ酸配列(〜遺伝子配列と同義)というナチュラルなハードコア情報を用いた創薬アイデアは、ロンドン子のサイエンス魂を掻き立てたようです。さすがニュートンやワトソン・クリックを生んだ国柄か。テックガイの中にはLLMを研究している人、NeurIPSというAI学会の名前を知っている人もいて、採択実績をお褒めにあずかることもしばしば。
通常の会議であれば、早朝や最終日はやや寂しいものですが、LTWでは最初から最後まで人が切れず、アツい応答を最後までいただいたのは驚きでした。世界の投資家だけではなく、Imperial、Oxford、Cambridge、King’sカレッジなどの先生や学生が多数来場し、肩書き関係なく起業を考え、プレゼンターに食いついているのが、いい感じで頼もしいです。
たぶん知的に(お金にも?)貪欲で、オープンな人々。世界中からロンドンに何かを求めてやってきた若者たち。わたしの学生時代は、卒後、大企業に就職するとか、医者なら病院でインターンするくらいしか選択肢がなかったので、時代が変わったことを実感。終わってみると、撮影した名札QRコード集計で、150チーム(300人以上)とお話しした計算でした。多数ご来店、ありがとうございました!
結果として、複数の投資会社と会話が始まりましたし、テック展示会にも関わらずバイオ研究者とも交流が生じました。何より嬉しいのは、自然産物であるハードデータを使ってバイオMLができそう、と気づいてくれたテックガイがたくさんいたことです。日本に生まれて絶対に縁がなかったはずの人々と、価値を共有できることがとても嬉しくありがたい…
ロンドンで改めて、COGNANOの提案がどんな立ち位置にあるか、歴史的な目で見ると
- データセット構築:シングルドメイン抗体生物(アルパカなど)の発見(1989)と次世代シーケンサの汎用化(2010-2015年頃にバイオ研究に普及)
- ITエンジニアリング:Large Language Model (LLM)の汎用化(2022年OpenAIの成功が後押し)
- mRNAワクチンなどのゲノム創薬とADC抗がん剤などの抗体創薬の隆盛(最近20年)
歴史上初めて、バイオ医薬FDA承認数が150年続いた化合物医薬を超える潮目が来たという幾つかのタイミングが重なった重要な時期に遭遇したと考えています。どの項目も聞いたような話なので、1つか2つのキーワードを理解いただければピンと来る時代になったのではないでしょうか。
COGNANOのテクノロジーを、別の言葉で表現するならば
- 抗体は、ほぼ無限に近い配列可能性の中から生物のアルゴリズムで選択され生成される
- 抗体は抗原に対してほぼ1対1(一義的)対応である
- 抗体も抗原もタンパク質ゆえアミノ酸配列の文字列で書ける
- 文字列同士が呼応するルールに基づき、言語モデルで相互翻訳できる(はず)
たったこれだけです。
これは誰にでも分かる!呆れるほど分かりやすいコンセプトが、わたしが長年バイオで修行して行き着いた地点でした。振り返れば、医師の時代には治療不可能な患者さんを前に沈黙し、バイオ研究者の時代には、仮説と結果の解釈に苦しみ、勇気を振り絞って発表せざるをえなかった。ロンドンで感じたのは、無力感や「因果関係という名の強迫観念」から、少し解放されたかもしれない、というプチ開放感だったかもしれません。
では、なぜCOGNANO以外に抗体のビッグデータを構築しLLMに挑戦したチームがなかったのでしょう。理由ははっきり分かりませんが、LLMは大量のデータがあって初めて可能になるもの。抗体はあらゆる生物の体で日々無数に生成されているので本来ならデータ量は十分なはずです。それにもかかわらず、抗原と抗体を紐づけたデータ(ラベルデータ)の発表は圧倒的に少ないのです。
なぜなら、特殊な動物以外では、抗体遺伝子は解読に手間がかかり過ぎ、ビッグデータ構築に向いていないからです。それに加え、そもそもバイオ業界ではマシンラーニング(ML)に進む習慣がなかったので、データ構築を目指した研究者が皆無であったと考えられます。
わたしたちが目指しているのは、言ってみれば、生体内で起きている「分子間相互作用」の数学的解明とも言えます。アミノ酸20文字の組み合わせからなるアルファベットの文章を手がかりに、その法則を解読する作業です。暗号解読は軍事における情報戦によって進化したアルゴリズムで、データ収集、言語特性理解、頻度分析、仮説検証の順番で進みます。このセオリーで考えた時、バイオ暗号解読の作業のうち最初の3つは、全てVHH抗体ビッグデータセットで可能になります。
古代エジプト文字が書かれたヒエログリフは、ロゼッタストーンに、ギリシャ文字で同じ内容が並列して書かれていたことを手がかりに解読されました。つまり「ラベルデータによる翻訳可能」だったことが、成功の最大のポイントでした。
わたしたちが行っているMLは、分子空間の暗号をラベル抗体データによって解読する作業のようにも思えてきます。最終ハードルは仮説検証ですが、実際にはウェット実験によって機械が予言したde novo抗体の機能を確認する作業になるはずです。
ラベル付き抗体データ保有量で世界トップカンパニーのCOGNANOは、さらにリードを拡げるために、データ生成を加速しています。その戦略は来年にも公開する予定です。「自然は信じられる教師」という考えに従うCOGNANOは、生物に与えてもらうナチュラルデータを活用する方針に徹してきました。ただし、この工程にはウェット実験が必要で、将来はデータ生産スピードに限界が来るはずです。すると「セオリーを学んだ」マシンが生成する人工データ?が必要な時が来るかもしれない、と予想されます。それはバイオマンだった自分には想像もしなかった世界… きっとCOGNANOにジョインするメンバーと一緒に旅をする冒険が待っています。
最後に。エジプトで出土したロゼッタストーンは、ひとたびナポレオンのフランス軍にコレクションされていましたが、1801年に英国軍に接収され、今では大英博物館に収蔵されています。なるほど、英国では「暗号解読」の伝統がLTWにつながっているのかもしれないと、感心したのでした。