SIFTS

このページの他言語版もあります: English

SIFTSとは？

SIFTS^*1 (Structure integration with function, taxonomy and sequence) は PDB のデータと UniProt のデータを残基レベルでマッピングする、最新のリソースです。また、IntEnz、GO、Pfam、InterPro、SCOP、CATH、PubMed からの情報にも、残基レベルでアノテーションを付けています。この情報は、新しいPDBエントリーが公開されると同時に、毎週、更新された情報が公開され、 RCSB、PDBsum、Pfam、SCOP、InterPro、DASのようなサービス提供側のリソースによっても、広く利用されています。

PDBエントリーの検索

PDBj Mine2とSIFTSを組み合わせることにより、ユーザは、SQL検索を使って、 PDBアーカイブ中のタンパク質配列の様々なアノテーションを検索することができます。例えば、Gene Ontologyや、分類学（生物種）、構造的な分類（SCOPやCATH）、酵素番号、UniProt配列との対応があります。

SQLクエリの例

SIFTSデータを使ったSQL検索の例は、 Mine 2ヘルプページをご覧ください。

SIFTSデータ

PDBj Mine2データベースへのSIFTSの統合については、FTPサイトを参照してください。
ftp://ftp.pdbj.org/mine2/sifts/

SIFTSデータのテーブル定義

SIFTSデータは、TSVフォーマット（タブ区切り値）で、RDBテーブルに保管されています。テーブル定義を以下に示します。テーブル名は、SIFTS (簡易アクセス) で提供されるファイル名に対応しています。ユーザは「sifts」という接頭辞を付けて、SIFTSスキーマで定義された以下のSIFTSテーブルへアクセスできることに注意してください。（例えば、sifts.pdb_chain_uniprot等）


CREATE TABLE pdb_chain_uniprot (
  pdbid CHARACTER(4),  -- PDB ID.
  chain TEXT,          -- Chain ID (auth_asym_id).
  SP_PRIMARY TEXT,     -- UniProt accession ID.
  RES_BEG INTEGER,     -- Beginning of the alignment in wwPDB's canonical sequence numbering scheme (pdbx_poly_seq_scheme.seq_id).
  RES_END INTEGER,     -- End of the alignment (see above).
  PDB_BEG TEXT,        -- Beginning of the alignment in author's sequence numbering scheme (pdbx_poly_seq_scheme.auth_seq_num).
  PDB_END TEXT,        -- End of the alignment (see above).
  SP_BEG INTEGER,      -- Beginning of the alignment in the UniProt sequence.
  SP_END INTEGER       -- End of the alignment in the UniProt sequence.
  );

CREATE TABLE pdb_chain_taxonomy(
  pdbid CHARACTER(4),
  CHAIN TEXT,
  TAX_ID TEXT,  -- NCBI taxonomy code.
  SCIENTIFIC_NAME TEXT -- This is NOT scientific at all!! (includes common names, etc.)
  );
CREATE TABLE pdb_pubmed(
 pdbid CHARACTER(4),
 ordinal TEXT,
 pubmed_id TEXT
 );

CREATE TABLE pdb_chain_enzyme (
 pdbid CHARACTER(4),
 chain TEXT,
 accession TEXT,  -- UniProt accession.
 EC_number TEXT   -- EC number.
 );

CREATE TABLE pdb_chain_go (
 pdbid CHARACTER(4),
 chain TEXT,
 SP_primary TEXT,
 WITH_STRING TEXT,
 EVIDENCE TEXT, -- Evidence code.
 GO_ID TEXT     -- GO (Gene Ontology) ID.
 );
CREATE TABLE pdb_chain_interpro(
  pdbid CHARACTER(4),
  CHAIN TEXT,
  interpro_ID TEXT -- InterPro ID.
  );

CREATE TABLE pdb_chain_pfam (
  pdbid CHARACTER(4),
  chain TEXT,
  SP_PRIMARY TEXT,
  PFAM_ID TEXT -- Pfam ID.
  );

CREATE TABLE pdb_chain_cath_uniprot(
  pdbid CHARACTER(4),
  CHAIN TEXT,
  SP_PRIMARY TEXT, -- UniProt accession
  CATH_ID TEXT     -- CATH ID (see http://www.cathdb.info/).
  );
CREATE TABLE pdb_chain_scop_uniprot(
  pdbid CHARACTER(4),
  CHAIN TEXT,
  SP_PRIMARY TEXT,  -- UniProt accession
  SUNID TEXT,       -- SCOP's SUN ID (see http://scop.berkeley.edu/).
  SCOP_ID TEXT      -- SCOP ID.
  );

CREATE TABLE uniprot_pdb (
  SP_PRIMARY TEXT,
  PDBIDS TEXT,  -- A list of PDBID's (in text).
  PDBIDS_arr TEXT[] -- The same as above but in an array of text (for convenience).
  );




*1) Velankar et al., Nucleic Acids Research 41, D483 (2013)

作成日: 2016-04-12 (最終更新日: more than 1 year ago)