PDBj Mineの検索ではPDBのデータに含まれる内容以外に、PDBjで独自に作成した「PDBMLadd」を含む以下の情報も利用することができます。
-
PDBjで独自に作成した「PDBMLadd」
- 引用論文に記載されているが共通のPDBデータには記載されていない情報
- 関連する遺伝子オントロジー(Gene Ontology、GO)の情報
- PDBeで提供している、PDBと関連データベースとの対応情報SIFTSの内容
- 生物的に重要な分子に関する情報を集めた参照辞書「BIRD」 (Biologically Interesting molecule Reference Dictionary)
- ケンブリッジ結晶構造データベース(CSD)
PDBMLadd はPDBMLと同じXML形式で情報を記したファイルで、定義を拡張して新たな要素を定義し、 付加情報を記したものです。PDBMLaddについて詳しくはPDBMLaddをご覧ください。
各PDBエントリーのPDBMLaddファイルはPDBj FTPサイト内にあります。 URLは ftp://ftp.pdbj.org/XML/pdbmlplus/pdbml_add/[PDBID]-add.xml.gz です。
PDBj Mine関係データベースにはPDBMLaddの内容も取り込んでおり、SQL検索で検索することができます。 Mine 2 関係データベースに関する文書に記しているテーブルの他、SIFTSに関する以下のテーブルも作成しています。
| 項目名 | 内容 | 例 |
|---|---|---|
| pdbid | PDBID | 1a14 |
| chain | Chain ID(=atom_site.auth_asym_id) | N |
| sp_primary | UniProt ID | P03472 |
| res_beg | PDBで定義した残基番号(=entity_poly_seq.num)での開始位置残基番号 | 1 |
| res_end | PDBで定義した残基番号(=entity_poly_seq.num)での終了位置残基番号 | 388 |
| pdb_beg | 構造登録者が定義した残基番号(=atom_site.auth_seq_id)での開始位置残基番号 | 82 |
| pdb_end | 構造登録者が定義した残基番号(=atom_site.auth_seq_id)での終了位置残基番号 | 468 |
| sp_beg | UniProtで定義されている残基番号での開始位置残基番号 | 83 |
| sp_end | UniProtで定義されている残基番号での終了位置残基番号 | 470 |
| 項目名 | 内容 | 例 |
|---|---|---|
| pdbid | PDBID | 2no6 |
| chain | Chain ID(=atom_site.auth_asym_id) | A |
| sp_primary | UniProt ID | P27707 |
| with_string | 接頭辞付きUniProt ID | UniProtKB:P27707 |
| evidence | IPI | |
| go_id | 遺伝子オントロジーID(GO ID) | GO:0042803 |
| 項目名 | 内容 | 例 |
|---|---|---|
| pdbid | PDBID | 1smd |
| chain | Chain ID(=atom_site.auth_asym_id) | A |
| tax_id | NCBI TaxonomyのTaxonomy ID | 9606 |
| scientific_name | 生物種名(学名、一般名) | Home sapiens |
以下に付加情報に関する検索例を挙げます。
- PDBエントリー1babに含まれる各高分子鎖のentity ID、Chain ID(auth_asym_id)、UniProt IDを得る
- GO IDが0006220(ピリミジンヌクレオチド代謝過程)である、PDB IDとUniProtアクセッションコード一覧を得る
- GO IDが0006220(ピリミジンヌクレオチド代謝過程)でかつヒト由来のタンパク質の、PDB IDとUniProtアクセッションコード一覧を得る
- 2種類の生物種に由来するキメラタンパク質のPDBID、エンティティID、Taxonomy IDを得る
- Pfamコードが"PF00046" (Homeobox) で、分解能が2.0Åより高く、鎖長が58残基以上のPDBエントリーの配列を得る
- ケンブリッジ結晶構造データベース(CSD)の化合物IDが「YARXEW」である化合物を含むPDBエントリーのPDB ID、化合物ID一覧を得る
- 化学式量が1000 Da以下の抗体を含むPDBエントリーのPDBID、分子名を得る
- 各Chemical Component IDの分子名、分子式、化学式量、InChIKeyを得る
- 由来生物種に新型コロナウイルス(NCBI Taxonomy ID: 2697049)を含み最近30日以内に公開されたエントリーの情報を得る






