SIFTS
SIFTSとは?
SIFTS*1 (Structure integration with function, taxonomy and sequence) は PDB のデータと UniProt のデータを残基レベルでマッピングする、最新のリソースです。 また、IntEnz、GO、Pfam、InterPro、SCOP、CATH、PubMed からの情報にも、残基レベルでアノテーションを付けています。 この情報は、新しいPDBエントリーが公開されると同時に、毎週、更新された情報が公開され、 RCSB、PDBsum、Pfam、SCOP、InterPro、DASのようなサービス提供側のリソースによっても、広く利用されています。
PDBエントリーの検索
PDBj Mine2とSIFTSを組み合わせることにより、ユーザは、SQL検索を使って、 PDBアーカイブ中のタンパク質配列の様々なアノテーションを検索することができます。 例えば、Gene Ontologyや、分類学(生物種)、構造的な分類(SCOPやCATH)、酵素番号、UniProt配列との対応があります。
SQLクエリの例
SIFTSデータを使ったSQL検索の例は、 Mine 2ヘルプページ をご覧ください。SIFTSデータ
PDBj Mine2データベースへのSIFTSの統合については、FTPサイトを参照してください。ftp://ftp.pdbj.org/mine2/sifts/
SIFTSデータのテーブル定義
SIFTSデータは、TSVフォーマット(タブ区切り値)で、RDBテーブルに保管されています。 テーブル定義を以下に示します。 テーブル名は、SIFTS (簡易アクセス) で提供されるファイル名に対応しています。 ユーザは「sifts」という接頭辞を付けて、SIFTSスキーマで定義された以下のSIFTSテーブルへアクセスできることに注意してください。 (例えば、sifts.pdb_chain_uniprot等)
CREATE TABLE pdb_chain_uniprot (
pdbid CHARACTER(4), -- PDB ID.
chain TEXT, -- Chain ID (auth_asym_id).
SP_PRIMARY TEXT, -- UniProt accession ID.
RES_BEG INTEGER, -- Beginning of the alignment in wwPDB's canonical sequence numbering scheme (pdbx_poly_seq_scheme.seq_id).
RES_END INTEGER, -- End of the alignment (see above).
PDB_BEG TEXT, -- Beginning of the alignment in author's sequence numbering scheme (pdbx_poly_seq_scheme.auth_seq_num).
PDB_END TEXT, -- End of the alignment (see above).
SP_BEG INTEGER, -- Beginning of the alignment in the UniProt sequence.
SP_END INTEGER -- End of the alignment in the UniProt sequence.
);
CREATE TABLE pdb_chain_taxonomy(
pdbid CHARACTER(4),
CHAIN TEXT,
TAX_ID TEXT, -- NCBI taxonomy code.
SCIENTIFIC_NAME TEXT -- This is NOT scientific at all!! (includes common names, etc.)
);
CREATE TABLE pdb_pubmed(
pdbid CHARACTER(4),
ordinal TEXT,
pubmed_id TEXT
);
CREATE TABLE pdb_chain_enzyme (
pdbid CHARACTER(4),
chain TEXT,
accession TEXT, -- UniProt accession.
EC_number TEXT -- EC number.
);
CREATE TABLE pdb_chain_go (
pdbid CHARACTER(4),
chain TEXT,
SP_primary TEXT,
WITH_STRING TEXT,
EVIDENCE TEXT, -- Evidence code.
GO_ID TEXT -- GO (Gene Ontology) ID.
);
CREATE TABLE pdb_chain_interpro(
pdbid CHARACTER(4),
CHAIN TEXT,
interpro_ID TEXT -- InterPro ID.
);
CREATE TABLE pdb_chain_pfam (
pdbid CHARACTER(4),
chain TEXT,
SP_PRIMARY TEXT,
PFAM_ID TEXT -- Pfam ID.
);
CREATE TABLE pdb_chain_cath_uniprot(
pdbid CHARACTER(4),
CHAIN TEXT,
SP_PRIMARY TEXT, -- UniProt accession
CATH_ID TEXT -- CATH ID (see http://www.cathdb.info/).
);
CREATE TABLE pdb_chain_scop_uniprot(
pdbid CHARACTER(4),
CHAIN TEXT,
SP_PRIMARY TEXT, -- UniProt accession
SUNID TEXT, -- SCOP's SUN ID (see http://scop.berkeley.edu/).
SCOP_ID TEXT -- SCOP ID.
);
CREATE TABLE uniprot_pdb (
SP_PRIMARY TEXT,
PDBIDS TEXT, -- A list of PDBID's (in text).
PDBIDS_arr TEXT[] -- The same as above but in an array of text (for convenience).
);
作成日: 2016-04-12 (最終更新日: more than 1 year ago)