このページの他言語版もあります: English

PDBにおけるバージョニングと改訂履歴による新たなファイル管理法について(PDBアクセションコード、ファイル名の変更)

5月19日付のニュースでお知らせした通り、 wwPDBは、登録者が、既に公開された自身のエントリーの座標を改訂する場合に、 PDBアクセションコードを変更せずに更新できるよう、ファイル・バージョニングシステムを導入する予定です。 バージョン化されたファイルは、新しいFTPアーカイブに保管されます。 バージョンは、大きな更新(メジャーバージョン)と小さな更新(マイナーバージョン)に分けられます。 原子座標やポリマー鎖、リガンドの化学的な同定に変更がある場合、メジャーバージョンの数字が1増加します。 その他の変更は全て、マイナーな変更に分類されます。 新しいFTPアーカイブには、PDBアーカイブ中のエントリーに対して、 全てのメジャーバージョンで 最新のマイナーバージョンのデータファイルを保管します。

wwPDBは、2つの段階に分けて、バージョン化されたファイルを公開します。

  • 第1段階(2017年10月)では、 新しいバージョン化用のFTPアーカイブ(ftp://ftp-version.wwpdb.org)で、 モデル構造ファイルが、PDBx/mmCIFフォーマットとPDBMLフォーマットで、公開されます。
  • 第2段階は2018年に公開される予定で、登録者が公開済みの自身のエントリーの座標を改訂する場合に対応し、 バージョン化されたモデル構造ファイルが、PDBx/mmCIFフォーマットとPDBMLフォーマットで公開されます。

バージョン化されたFTPアーカイブ中のファイル名は、新しい命名スキーマに従います。 利用者は、ファイル名からメジャーバージョンとマイナーバージョンを容易に確認できるようになります。

<PDB_ID>_<content_type>_v<major_version>-<minor_version>.<file_format_type>.<file_compression_type>

これまでのPDBアクセションコードは4文字でしたが、8文字へと文字数を増やし、“pdb”の文字も同時に追加します。 従って、PDBエントリー“1abc”の、新しいPDBアクセションコードは、“pdb_00001abc”になります。

例えば、PDBエントリー1abcについて、最初に公開される原子座標ファイルは、新しいファイル命名スキーマでは、次のようになります。
pdb_00001abc_xyz_v1-0.cif.gz

ここで、xyzは座標ファイルを表します。cifはファイルのフォーマット、gzはgzip圧縮されたファイルを表します。

PDBエントリー1abcについて、1回目のマイナー更新が行われた場合、ファイル名は以下のようになります。

pdb_00001abc_xyz_v1-1.cif.gz

PDBエントリー1abcにメジャーな更新が行われると、以下のファイル名となります。

pdb_00001abc_xyz_v2-0.cif.gz (注: メジャーバージョンが更新される度に、マイナーバージョンの数字は0へリセットされます。)

ある特定のPDBエントリーに対するバージョン化されたデータファイル群は、 アルファベット2文字(PDBアクセションコードの最後から3文字目2文字目)のディレクトリ配下の、 1つのディレクトリ内に保管されます。

../pub/pdb_versioned/data/entries/<two-letter-hash>/<pdb_accession_code>/<entry_data_File_names>

例えば、PDBエントリー1abcについて、メジャーバージョン1、マイナーバージョン2のファイルのパスは、以下のようになります。

../pub/pdb_versioned/data/entries/ab/pdb_00001abc/pdb_00001abc_xyz_v1-2.cif.gz

FTPアーカイブの利用者の便宜のため、リポジトリの様々なビューが、最も一般的な使用例として提供されます。 2017年の第1段階では、現在のリポジトリに似た、内容(content type)とフォーマットによるビューを、公開します。 全てのメジャーバージョンで最新のマイナーバージョンのデータファイルが含まれます。

../pub/pdb_versioned/views/<content_type>/<file_format_type>/<two-letter-hash>/<pdb_accession_code>/<entry_data_File_names>

例えば、PDBエントリー1abcについて、PDBx/mmCIFフォーマットの座標ファイルは、以下のパスで利用できます。

../pub/pdb_versioned/views/coordinates/mmcif/ab/pdb_00001abc/pdb_00001abc_xyz_v1-2.cif.gz

../pub/pdb_versioned/views/coordinates/mmcif/ab/pdb_00001abc/pdb_00001abc_xyz_v2-0.cif.gz

現在のアーカイブ ftp://ftp.wwpdb.org/pub/pdb/data/structures/ (PDBj: ftp://ftp.pdbj.org/pub/pdb/data/structures/) にあるデータファイルは、これまで通りの命名に従い、バージョン化されたFTPツリーのアーカイブ中にあるファイルの最新バージョンに対応づけられます。

[ wwPDB ニュース ]

2017-08-02 (last edited: 1 month ago)2017-08-03
PDBj@FacebookPDBj@TwitterwwPDBwwPDB FoundationEM DataBank

Copyright © 2013-2017 日本蛋白質構造データバンク