Photo by Unsplash
VHHCorpus
VHHCorpusは、アルパカから採取したVHH (Variable domain of Heavy chain of Heavy chain antibody)の全長のアミノ酸配列からなる事前学習用コーパスである。現在、200万以上のVHH配列を含むVHHCorpus-2Mを公開しています。VHHCorpus-2Mは、VHHに特異的な言語モデルの事前学習に使用できます。
列の説明
データセットの各列の内容と形式の説明です。
列名 | 説明 |
VHH_sequence | VHHのアミノ酸配列 |
subject_species | VHHが採取された対象の種 |
subject_name | VHHが採取された対象の名前 |
subject_sex | VHHが採取された対象の性別 |
パイプライン
VHHCorpusは、以下のワークフローによって生成されました。青色で強調されたスクリプトは、GitHubで公開しています。
サブジェクト
VHHCorpus-2Mは、AVIDa-SARS-CoV-2の作成に使用されたアルパカとは異なる5頭のアルパカから作成されたVHH配列のコーパスです。VHHCorpus-2Mには、ラベル付き結合データセットとして公開されていない複数のデータセットと、すでに公開されているAVIDa-hIL6が含まれています。
Name | Species | Sex |
Lucky | Alpaca | Female |
Marin | Alpaca | Male |
Wizzy | Alpaca | Male |
Yodel-Suri | Alpaca | Female |
Yuki | Alpaca | Female |