VHHCorpus image

Photo by Unsplash

データセット

VHHCorpus

VHHCorpusは、アルパカから採取したVHH (Variable domain of Heavy chain of Heavy chain antibody)の全長のアミノ酸配列からなる事前学習用コーパスである。現在、200万以上のVHH配列を含むVHHCorpus-2Mを公開しています。VHHCorpus-2Mは、VHHに特異的な言語モデルの事前学習に使用できます。

列の説明

データセットの各列の内容と形式の説明です。

列名
説明
VHH_sequence
VHHのアミノ酸配列
subject_species
VHHが採取された対象の種
subject_name
VHHが採取された対象の名前
subject_sex
VHHが採取された対象の性別

パイプライン

VHHCorpusは、以下のワークフローによって生成されました。青色で強調されたスクリプトは、GitHubで公開しています。

Image

サブジェクト

VHHCorpus-2Mは、AVIDa-SARS-CoV-2の作成に使用されたアルパカとは異なる5頭のアルパカから作成されたVHH配列のコーパスです。VHHCorpus-2Mには、ラベル付き結合データセットとして公開されていない複数のデータセットと、すでに公開されているAVIDa-hIL6が含まれています。

Name
Species
Sex
Lucky
Alpaca
Female
Marin
Alpaca
Male
Wizzy
Alpaca
Male
Yodel-Suri
Alpaca
Female
Yuki
Alpaca
Female