AVIDa-SARS-CoV-2 image

Photo by Unsplash

データセット

AVIDa-SARS-CoV-2

AVIDa-SARS-CoV-2は、新型コロナウイルス(SARS-CoV-2)のスパイクタンパク質で免疫した2頭のアルパカから生成したVHH (Variable domain of Heavy chain of Heavy chain antibody)と抗原の結合データセットです。AVIDa-SARS-CoV-2には、Delta株やOmicron株などの12のSARS-CoV-2変異体に対して、多様なVHH配列が結合するか結合しないかを示すバイナリラベルが含まれています。AVIDa-SARS-CoV-2は、抗原抗体の結合予測に対する抗体言語モデルの表現能力を評価するための貴重なベンチマークを提供し、AIを用いた抗体探索の開発を促進します。

列の説明

データセットの各列の内容の説明です。

AVIDa-SARS-CoV-2.csv

列名
説明
VHH_sequence
VHHのアミノ酸配列
Ag_label
抗原の種類
label
1は結合ペアを表し、0は非結合ペアを表すバイナリラベル
subject_species
VHHが採取された対象の種
subject_name
VHHが採取された対象の名前
subject_sex
VHHが採取された対象の性別

antigen_sequences.csv

列名
説明
Ag_label
抗原の種類
Ag_sequence
抗原のアミノ酸配列

パイプライン

AVIDa-SARS-CoV-2は、以下のワークフローによって生成されました。青色で強調されたスクリプトは、GitHubで公開しています。

Image

統計値

AVIDa-SARS-CoV-2には、22,002の結合ペアと55,001の非結合ペアを含む77,003のデータサンプルが含まれています。以下の図は、各抗原に対するデータサンプルの数を示しています。

Image

サブジェクト

データセットの作成には以下の2頭のアルパカが用いられました。

Name
Species
Sex
Christy
Alpaca
Female
Puta
Alpaca
Male

標的抗原

以下の13種類の抗原を標的抗原として使用しました。

Antigen Type
Panning
Description
WT
cell
Wild-type (WT) SARS-CoV-2 identified in Wuhan
D614G
cell
Mutant with D614G mutation
Alpha
cell, bead
Mutant with representative mutations of Alpha variant with a C9 tag at the C-terminus.
Alpha+K417N
cell
Mutant of antigen type “Alpha” with K417N mutation
Alpha+K484K
cell
Mutant of antigen type “Alpha” with E484K mutation
Beta
cell, bead
Mutant with representative mutations of Beta variant
Delta
cell, bead
Mutant with representative mutations of Delta variant
Kappa
bead
Mutant with representative mutations of Kappa variant
Lambda
bead
Mutant with representative mutations of Lambda variant
Omicron
cell, bead
Mutant with representative mutations of Omicron (BA.1) variant
PMS
bead
Polymutant spike (PMS) protein
S2-domain
bead
S2-domain of the WT
OC43
bead
Human coronavirus OC43 (HCoV-OC43)