データセット

アルパカやリャマなどのラクダ科動物が持つVHH (Variable domain of Heavy chain of Heavy chain antibody)は、サイズが小さく、安定性が高く、抗原への結合親和性が高いことから、有望な治療薬として期待されています。

VHHは、ヒトやマウスなどの抗体に比べて単純な構造を持つため全長のアミノ酸配列の同定が容易です。このことを利用して、COGNANOは抗原抗体相互作用のデジタルライブラリーを作成する新しい方法を確立しました。

私たちは、AI技術を活用した抗体探索を促進するために、2つのラベル付き結合データセット(AVIDa-hIL6、AVIDa-SARS-CoV-2)とVHH配列の事前学習用コーパス(VHHCorpus)を公開しています。

AVIDa-hIL6 image

AVIDa-hIL6

AVIDa-hIL6は、ヒトIL-6タンパク質を免疫したアルパカから生成されたVHH (Variable domain of Heavy chain of Heavy chain antibody)の相互作用データセットです。すべての抗原-VHHペアには、ファージディスプレイ法とバイオパニングを組み合わせた親和性選択と次世代シークエンサー解析の統計処理を組み合わせたラベリング方法によって生成された、”結合”または”非結合”の信頼できるラベルが付与されています。AVIDa-hIL6は、VHHの単純な構造を活用して抗体全長をDNAシーケンシング技術によって同定したアミノ酸配列が明示された573,891の抗原-VHHペアで構成されており、そのうち20,980の結合ペアが含まれています。抗原にはIL-6タンパク質の野生型と30種類の異なる変異体が含まれており、IL-6タンパク質のどのアミノ酸点変異...

AVIDa-SARS-CoV-2 image

AVIDa-SARS-CoV-2

AVIDa-SARS-CoV-2は、新型コロナウイルス(SARS-CoV-2)のスパイクタンパク質で免疫した2頭のアルパカから生成したVHH (Variable domain of Heavy chain of Heavy chain antibody)と抗原の結合データセットです。AVIDa-SARS-CoV-2には、Delta株やOmicron株などの12のSARS-CoV-2変異体に対して、多様なVHH配列が結合するか結合しないかを示すバイナリラベルが含まれています。AVIDa-SARS-CoV-2は、抗原抗体の結合予測に対する抗体言語モデルの表現能力を評価するための貴重なベンチマークを提供し、AIを用いた抗体探索の開発を促進します。

VHHCorpus image

VHHCorpus

VHHCorpusは、アルパカから採取したVHH (Variable domain of Heavy chain of Heavy chain antibody)の全長のアミノ酸配列からなる事前学習用コーパスである。現在、200万以上のVHH配列を含むVHHCorpus-2Mを公開しています。VHHCorpus-2Mは、VHHに特異的な言語モデルの事前学習に使用できます。