Hirofumi Tsuruta

COGNANOで機械学習に関する研究や開発を担当しているつるべーです。先日COGNANOでは、新型コロナウイルスに有効なアルパカ抗体に関する論文やプレスリリースを公開しました。テレビや新聞などでも広く取り上げていただいたので、「アルパカ抗体」という言葉を目にした方もいらっしゃるのではないでしょうか。この成果は、ワクチン接種したアルパカから生み出される膨大な抗体遺伝子のデータが鍵を握っています。このデータには非常に複雑かつ未解明な生命現象が潜んでおり、深層学習などの機械学習技術が絶大な力を発揮することが期待できます。今回は、現在COGNANOで進行中の機械学習に関する取り組みについて紹介していきます。

背景: 免疫反応と抗体医薬

COGNANOの取り組みをご紹介する前に、そもそも抗体って何？と言う方もいらっしゃると思うので、簡単に背景を説明します。

人間は、外部から体内に侵入してきたウイルスや細菌などの抗原から体を守るために免疫という防御システムを備えています。この防御システムでは、体内に侵入した抗原に対抗するために大量の抗体を作り出し、抗原に結合して排除しようとします。この抗原を排除しようとする働きを免疫反応といいます。一つの抗体は特定の抗原にしか反応しない特異性を持つため、侵入してきた抗原に対応した抗体が作られます。

この抗体を利用して、病気の予防や治療をおこなう薬が抗体医薬です。抗体の特異性を利用することで、特定の抗原をピンポイントで攻撃できるため、治療効果が高く副作用の少ない薬として注目されています。抗体とは、抗原に結合するという機能に着目した名称であり、その実体は多数のアミノ酸が鎖状に連なったタンパク質です。抗体医薬の開発において、ターゲットとなる抗原に対して特異的に結合するタンパク質（抗体）を探索することが重要な課題となります。

アルパカが生成するデータ

COGNANOが保有するデータはアルパカが生成しています。そう聞くと、なぜアルパカなのか？が気になった方も多いのではないでしょうか。その理由は、アルパカが持つVHH抗体は、人間などが持つ一般的な抗体と比べて構造がシンプルであり、次世代シーケンサーという実験装置を使ってデータ化できるからです。ここで言うデータとはアミノ酸配列のことで、20種類のアミノ酸が並んだものです。1つのアミノ酸は1文字のアルファベットで表記できるため、アミノ酸配列は文字列として表現できます。

それではどうやって特定の抗原に対して特異的に結合する抗体を探索するのでしょうか。答えは「アルパカ体内で起きる免疫反応を利用する」です。アルパカに対して抗原を注入すると、体内で免疫システムが稼働し、抗原に対抗するための抗体を大量に作り出します。この抗体を取り出してデータ化していくわけです。さらに、COGNANO独自の手法により、取り出した抗体の中から実際に抗原に結合する抗体と結合しない抗体をラベル付けします。これがいわゆる機械学習の正解ラベルになります。実際のデータ化の過程やラベル付けはもっと複雑ですが、これらの詳細は今後論文として公開する予定です。

データの内容をおさらいすると、ターゲットとなる抗原のアミノ酸配列（文字列）、薬の候補となる抗体のアミノ酸配列（文字列）、および抗原と抗体のペアに対して結合する/しないのラベル（二値）があります。そのため、抗原・抗体のアミノ酸配列を説明変数、ラベルを目的変数として、結合の有無を予測する二値分類の機械学習モデルを構築できます。さらに、機械学習を専門とする者からの観点として、このデータが機械学習、特に深層学習の強力な学習能力を発揮する対象として、望ましいいくつかの特徴があります。

1. 膨大なデータ

あるデータに深層学習を適用する上での基本的な問題として、データ数が十分でないということがよくあります。この場合、どれだけデータの質が高くても、そこから有益な情報を取り出すことは難しくなります。アルパカという生きた計算機は非常に優秀ですので、一つの抗原に対して膨大な数の抗体を作り出し、我々はそれをデータ化します。具体的には、データの処理の条件にもよるのですが、一つの抗原に対して、数十万〜数百万オーダーで抗体遺伝子の情報が得られます。さらに、複数の抗原に対してデータ化することで、膨大なデータを生み出すことができます。

2. 密なデータ分布

アルパカから得られた抗体はアミノ酸配列の類似性（相同性）が高いものを多く含みます。つまり、配列の大部分は一致していてほんの一部のアミノ酸だけが異なるといった抗体が得られます。これは抗原と抗体の結合を捉えるためには非常に有用な情報となります。機械学習の観点から見ても、一般にデータ密度が高い領域はモデルの予測の性能や信頼性が高くなります。

3. 免疫反応の法則性が潜んだデータ

我々のデータはアルパカの体内でリアルに起きている免疫反応の結果を反映しているため、データの中に何かしらの法則性が内在していると考えられます。もし法則性がなく抗体がランダムに作られるとしたら、2で述べたような類似性の高いアミノ酸配列は得られないでしょう。抗体のアミノ酸配列の長さをNとすると、取りうるアミノ酸配列の数は20のN乗個になります。しかし、生体内で起きている免疫反応という世界は実はもっと狭く、同一の抗原に対する免疫反応は有限通りである可能性があります。これであれば、なんとか深層学習で捉えられるかもしれません。このようにデータの裏側に捉えるべき真の現象が潜んでいるというのは、深層学習の適用先として非常に魅力的です。

深層学習により広がる可能性

タンパク質を構成するアミノ酸配列のデータに対して深層学習を適用する研究が盛んに行われています。興味深いことに、アミノ酸配列は文字列として表現できるため、最近の研究では自然言語処理の分野における技術の発展が急速に取り込まれる傾向にあります。具体的には以下のような研究があります。どちらも2018年にGoogleが提案した言語モデルであるBERTをタンパク質のアミノ酸配列に適用した研究です。

[2006.15222] BERTology Meets Biology: Interpreting Attention in Protein Language Models

Transformer architectures have proven to learn useful representations for protein classification and generation tasks. However, these representations present challenges in interpretability. In this work, we demonstrate a set of methods for analyzing protein Transformer models through the lens of attention. We show that attention: (1) captures the folding structure of proteins, connecting amino acids that are far apart in the underlying sequence, but spatially close in the three-dimensional structure, (2) targets binding sites, a key functional component of proteins, and (3) focuses on progressively more complex biophysical properties with increasing layer depth. We find this behavior to be consistent across three Transformer architectures (BERT, ALBERT, XLNet) and two distinct protein datasets. We also present a three-dimensional visualization of the interaction between attention and protein structure. Code for visualization and analysis is available at https://github.com/salesforce/provis.

https://arxiv.org/abs/2006.15222

2021.05.24.445464v1

https://www.biorxiv.org/content/10.1101/2021.05.24.445464v1

我々も独自のアルパカ抗体のデータに対して、TransformerやBERTなどの自然言語処理分野で発展した深層学習の技術を適用して研究を進めています。

我々が深層学習を用いて解きたい直近の課題は主に二つあります。一つは特定の抗原と抗体が結合（相互作用）するかを予測することです。このような深層学習モデルが構築できると、ターゲットの抗原のアミノ酸配列が既知であれば、COGNANOが保有している膨大なアルパカ抗体の配列との結合を予測することで、抗原に結合する抗体のアミノ酸配列をスクリーニングできます。結合するからといって必ず薬として有効であるというわけではありませんが、薬となる候補を計算機のみで絞り込めることは、創薬プロセスの大幅な効率化に繋がります。

もう一つの課題は、抗体が抗原のどこの部位に結合するかを予測することです。抗体が特異的に結合する抗原の部位のことをエピトープと呼びます。一般にエピトープは数個程度のアミノ酸からなる小さい領域であるため、エピトープの予測は抗原に特異的に結合する抗体を設計する上で非常に有益な情報となります。この課題は、近年機械学習の分野で盛んに研究が進められている機械学習の解釈性の観点からアプローチできます。特に、LIMEやSHAPを始めとしたモデルの予測に対する入力特徴量の貢献度を提示する手法は、エピトープの予測にそのまま活用できます。このような機械学習の解釈性についての最新の研究をエピトープの予測に取り込むことは非常にチャレンジングかつ実用的な研究です。

COGNANOだからこそできること

ここまでで述べたアルパカの抗体遺伝子のデータを用いて深層学習のモデルを構築する取り組みは、前例がなくCOGNANOだからこそできることです。その理由は単純でデータが唯一無二だからです。COGNANOではアルパカ抗体に着目して以来、その可能性を信じて疑わず、長い年月をかけて試行錯誤を繰り返しデータを蓄積し続けてきました。そもそも高度なバイオの実験スキルがなければデータ化すること自体が困難です。一方、先にも挙げた既存研究の多くは、強い仮定により正解ラベルをつけたデータやシミュレーションにより仮想的に生成した少量のデータを用いています。そのため、データの量の観点でも質の観点でも大きな優位性があります。どれだけ高度な深層学習のモデルがあっても、優れたデータがなければ、価値のある実用的なモデルを作ることはできません。

生体内の免疫反応の法則性が潜んだ我々のデータから有益な情報を取り出すためには深層学習や統計解析などの数理的なアプローチが必要不可欠です。データを単に人間が目視で眺めても何もわかりません。COGNANOでは、バイオの専門家のたゆまぬ努力により生まれたデータに数理的なアプローチを適用したことで、データの価値を引き出すことに成功し始めています。その成果の一つが新型コロナウイルスに関する論文であり、このような取り組みはこれからさらに加速していきます。ぜひこれからのCOGNANOにご期待ください。

まとめ

今回はCOGNANOの機械学習関連の取り組みを紹介しました。我々は、アルパカにターゲットとなる抗原を注入した際に体内で起きる免疫反応を利用して抗体遺伝子の情報をデータ化します。さらにこのデータに深層学習を適用して、特定の抗原に結合する抗体の予測や、抗体が特異的に結合する抗原の部位の予測に取り組んでいます。より具体的な研究内容は今後論文として公開していく予定です。

最後までお読みくださり、ありがとうございます。COGNANOに関するお話が何かありましたら、社長の伊村さんやCTOのまつもとりーさん、つるべーまでご連絡頂ければと思います。