[wwPDB] バージョン化と改訂履歴を導入した新しいPDBアーカイブの管理法について
バージョン化と改訂履歴を導入した新しいPDBアーカイブの管理法について
新しいFTPアーカイブ ' ftp-versioned.wwpdb.org/' (PDBj: ' ftp-versioned.pdbj.org/')で、モデル構造ファイルが、PDBx/mmCIFフォーマットとPDBMLフォーマットで、公開されました。 5月19日付のニュースでお知らせした通り、 wwPDBは、登録者が、既に公開された自身のエントリーの座標を改訂する場合に、 PDBアクセションコードを変更せずに更新できるバージョニングシステムを導入しました。 原子座標やポリマー鎖、リガンドの化学的な同定に変更がある場合、メジャーバージョンの数字が1増加します。 その他の変更は全て、マイナーな変更に分類されます。 各PDBエントリーに対して、 全てのメジャーバージョンの構造ファイルが、新しいFTPアーカイブに保管されます。 2018年の段階には、登録者が公開済みの自身のエントリーの座標を改訂できるようになる予定です。
バージョン化されたFTPアーカイブ中のファイル名は、新しい命名スキーマに従います。 利用者は、ファイル名からメジャーバージョンとマイナーバージョンを容易に確認できます。
<PDB_ID>_<content_type>_v<major_version>-<minor_version>.<file_format_type>.<file_compression_type>
これまでのPDBアクセションコードは4文字でしたが、8文字へと文字数を増やし、“pdb”の文字も同時に追加します。 従って、PDBエントリー“1abc”の、新しいPDBアクセションコードは、“pdb_00001abc”になります。 この新しいフォーマットのPDBアクセションコードは、後日、モデル構造ファイルに含まれる予定です。
例えば、PDBエントリー1abcについて、最初に公開される原子座標ファイルは、新しいファイル命名スキーマでは、次のようになります。
pdb_00001abc_xyz_v1-0.cif.gz
ここで、xyzは座標ファイルを表します。cifはファイルのフォーマット、gzはgzip圧縮されたファイルを表します。
PDBエントリー1abcについて、1回目のマイナー更新が行われた場合、ファイル名は以下のようになります。
pdb_00001abc_xyz_v1-1.cif.gz
PDBエントリー1abcにメジャーな更新が行われると、以下のファイル名となります。
pdb_00001abc_xyz_v2-0.cif.gz (注: メジャーバージョンが更新される度に、マイナーバージョンの数字は0へリセットされます。)
ある特定のPDBエントリーに対するバージョン化されたデータファイル群は、 アルファベット2文字(PDBアクセションコードの最後から3文字目2文字目)のディレクトリ配下の、 1つのディレクトリ内に保管されています。
../pub/pdb_versioned/data/entries/<two-letter-hash>/<pdb_accession_code>/<entry_data_File_names>
例えば、PDBエントリー1abcについて、メジャーバージョン1、マイナーバージョン2のファイルのパスは、以下のようになります。
../pub/pdb_versioned/data/entries/ab/pdb_00001abc/pdb_00001abc_xyz_v1-2.cif.gz
FTPアーカイブの利用者の便宜のため、内容(content type)とフォーマットに対して、リポジトリの別のビューが提供されています。 wwPDBは、各PDBエントリーのディレクトリにあるそれぞれのメジャーバージョンの最新バージョンだけではなく、 完全な最新バージョンへのリンクを提供しています。
例えば、PDBx/mmCIFフォーマットの座標ファイルの最新バージョンへは、以下のパスで利用できます。
(例:1ABCの場合)
../pdb_versioned/views/latest/coordinates/mmcif/ab/pdb_00001abc/pdb_00001abc_xyz.cif.gz
→../pdb_versioned/data/entries/ab/pdb_00001abc/pdb_00001abc_xyz_v2-0.cif.gz
また、PDBエントリー1abcについて、PDBx/mmCIFフォーマットの座標ファイルの全てのメジャーバージョンのファイルには、 以下のパスで利用できます。
../pdb_versioned/views/all/coordinates/mmcif/ab/pdb_00001abc/pdb_00001abc_xyz_v1.cif.gz →../pdb_versioned/data/entries/ab/pdb_00001abc/pdb_00001abc/pdb_00001abc_xyz_v1-2.cif.gz
../pdb_versioned/views/all/coordinates/mmcif/ab/pdb_00001abc/pdb_00001abc/pdb_00001abc_xyz_v2.cif.gz →../pub/pdb_versioned/data/entries/ab/pdb_00001abc/pdb_00001abc_xyz_v2-0.cif.gz
現在のアーカイブ ftp://ftp.wwpdb.org/pub/pdb/data/structures/ (PDBj: ftp://ftp.pdbj.org/pub/pdb/data/structures/) にあるデータファイルは、これまで通りの命名に従い、バージョン化されたFTPツリーのアーカイブ中にあるファイルの最新バージョンに対応づけられます。
[ wwPDB ニュース ]