ブログ

当社が主導した論文が、世界最高峰のマシンラーニング(ML)学会「NeurIPS」に2年連続で採択されました。NeurIPS 2023では、日本からの投稿は3,000件以上にも上りますが、厳しい審査があり、採択はわずか100件程度でした。その中で、バイオ系スタートアップの採択は極めて異例です。COGNANOを支えてくださった取引先各社、助成元、投資家の皆様、共同研究パートナーのさくらインターネット様、温かく応援してくださっているサポーターの皆様に、心より御礼申し上げます。

今回の成果は、COGNANO独自の「抗原ラベル付き抗体ビッグデータ」を活用し、言語モデルの可能性を実証したものです。特に、ML&テックリードの鶴田、MLOps担当の田村をはじめ、小さなスタートアップの研究者たちが、バイオとITの境界を越えて協力し合った成果でもあります。

私たちのバイオデータセットと計算機科学のシナジーにより、初めて可能となったテーマが3つあります。

  1. 細胞レベル:「正常細胞と異常細胞」を見分ける
  2. 分子レベル:アミノ酸アルファベット配列の照合により、抗体と抗原のペアリングを予測する
  3. 原子レベル:目的立体構造に結合する抗体を選び出す
Image
COGNANOのビッグデータは、細胞レベル、分子レベル、原子レベルの3階層で創薬に貢献します

抗体データを用いるには高度な数学的手法と膨大な計算パワーが必要です。これまで、抗原と抗体がペアとなった大規模なデータセットはほとんど存在せず、どのようなデータ処理が必要なのか、前例が非常に少ない状況でした。COGNANOは世界で初めてビッグデータを自社で内製し、MLOps の技術を活用してデータをパッケージ化してクラウドに蓄積しました。この体制により、3つの課題に挑戦しています。今回NeurIPSで採択された論文は、テーマ2に該当します。ちなみに、テーマ1は難治がんの新標的分子の発見としてすでに成果を挙げています。今後はテーマ3をITテックと協力して開発していく予定です。テーマ3は立体構造の理解から始まるため、話題のAlphaFoldのようなアルゴリズムとの連携が課題となるでしょう。一般に、IT業界は抗原抗体データセットからテーマ3をイメージすることが多いようです。

活用例をいくつかご紹介しますと、以下のような流れになります。

  1. 未知のバイオマーカーを発見し、がん細胞の発見や治療に向けた早期診断や薬の開発を可能にする
  2. 変異するウイルスなどに迅速に対応し、ライブラリから予防薬を発見する
  3. 特殊な構造モチーフに結合する、従来の手法で作りにくかった薬を機械でデザインする

私たちは、10年以内に新薬は(部分的であれ)AIによって予測される時代が来ると考えています。今回採択された論文の詳細は、鶴田の解説ブログをご覧いただくとして、バイオ研究者の視点から、AI創薬がどのように進んでいくのかを予測してみたいと思います。

ここで参考になるのはChatGPTでしょう。どのようなモデルを構築するにせよ、マシンラーニング(ML)が成立するためには、膨大なデータが必要です。ChatGPTを成功に導いたAltmanチームのすごみは、「どれほどのデータを投入すれば、機械がまともに答えるようになるのか」誰にも保証できない状況を打ち破ったことにあります。OpenAIには膨大な計算リソースが必要だったはずで、資金との競争も熾烈だったに違いありません。

バイオ業界にとっての課題は、ChatGPTに投入されたような量のデータが存在するのか、という点です。答えはノーです。AlphaFoldはバイオ系MLの成功例として有名ですが、これは過去に登録された数十万のタンパク質立体構造データ、すなわち規則性が高く、文脈が明確な情報をトレーニングすることで構築されたアルゴリズムです。しかし、創薬において知りたいことは、タンパク質の立体構造だけではありません。薬は標的分子に結合して初めて機能を発揮するため、分子間相互作用の理論が重要になりますが、この分野のデータは圧倒的に不足しています。

Image
共同研究会議のためモントリオールのMilaに拠点をおく ITスタートアップを訪問

抗体の抗原への結合はバイオ実験を経てゼロイチ(バイナリー)で表示されることから、明確なラベルデータとなります。私たちの論文で、COGNANOのコンセプトが2年連続で実証されました。AI創薬に必要な3.の技術でも、良質なデータが有効に働くと考えています。トレーニング用データセットのクオリティがMLの学習効率に与える影響は、多くの研究で実証されています。これらの研究事例については、鶴田のエッセイをご覧ください。

大規模言語モデルにおけるData-Centric AI
これまでのAI研究では、解きたい問題に対するAIの性能を向上させるために、モデルの設計を改善することに重点が置かれてきたが、最近ではデータの量や品質、信頼性を確保することでAIの性能を向上させる方向性の研究が増えている。そのきっかけの一つは、2021年のAndrew Ng先生の講演「MLOps: From Model-centric to Data-centric AI」の中で、Data-centric AIという概念が提唱されたことである。また同年、AI分野の最高峰の国際学会であるNeurIPSが、新たな研究トラックとしてDatasets and Benchmarks Trackを発足したことも、Data-centric AIの研究が活発化したことに寄与している。このような研究の流れの中で、私自身もData-centricな視点でのAI研究を進めており、NeurIPSのDatasets and Benchmarks Trackに2023年、2024年と連続で主著論文を投稿している。本ブログは、近年急速に発展している大規模言語モデル(LLM)において、どのようなData-centricな研究が進められているのかを調査したものである。内容は、2024年6月に公開されたポジションペーパー「Data-Centric AI in the Age of Large Language Models」を参考に、Data-centric視点からLLMにおいて重要な技術や研究についてまとめた。
iconhttps://zenn.dev/tsurubee/articles/8a09a6e677dd5a
image

COGNANOというより、アルパカが産出する良質なラベルデータは、AI創薬競争の勝敗を分ける鍵となり得ます。IT業界でも、COGNANOのデータに注目し、共同研究を希望するチームが増えています。また、今年6月にロンドンテックウィーク(LTW)でピッチさせていただいた際、反響をいただき、その後、英国から複数のチームに訪問いただきました。MLエンジニアにとって、COGNANOが進めているAI創薬の方向性は理解しやすいのです。一方、バイオ業界でも「面白いことをやっている」と関心いただくことが増えています。今後も論文発表と出願を通じて、COGNANOの成果をお知らせしていく予定です。

私自身は、新技術から生まれるデータで「MLを加速する!」と意気込んでいます。これまでのバイオ研究は、「極上のデータ」だけを論文化し、99.99%のデータは埋もれてしまっていました。しかし、MLへのデータ提供により、今では捨てる部分がなく全て活用できることに感謝しています。この変化は、重大な産業構造変化も示唆しています。バイオの基礎研究がアカデミアでしか成り立たなかった原因は、経済効率の悪さにあったと言えます。産業から見れば、効率の悪い基礎研究は大学に任せ、利益に直結する部分を担当するのは当然のことです。ところが、バイオ基礎研究がデータサイエンスに変わったら、ビジネスとしても成立する可能性が出てくるのです。これは、今まで意味を持たなかったデータの活用が成果を左右する時代になることも意味します。昔、厄介な液体でしかなかった原油が、内燃機関の発明により突然富に変わったように。こう考えると、まさしくAlphaFoldが注目されている現象も、産業構造的な理由であると理解できます。問題は、どのようなバイオデータを生産し、どのチームが参加すれば、人類史上初めてのAI創薬レースに勝てるのか、に絞られてきました。今後のCOGNANOの活躍にご注目ください!