SeSAW

※旧版ヘルプページはこちら

※このページは、SeSAWに関する案内文、 SeSAWの解説を訳したものです。より詳しく具体的な使い方について説明されているSeSAW Tutorialもご覧下さい。

概要

SeSAW（Sequence-derived Structure Alignment Weights、配列から導き出された構造比較比重）は、指定した蛋白質に含まれる保存された配列や構造モチーフを検出し、その機能説明を提供します。蛋白質の指定（クエリ）は実験で決定された構造でも、構造モデルでも構いません。構造モデルの場合、配列から構造モデル中間体を経由して直接機能部位と予想される部位を特定できます。

SeSAWはまず、蛋白質構造データバンク（PDB）にある全てのエントリーの中から指定された蛋白質と構造的に関係のあるものを選び出します。そして、構造的に一致した部分（鋳型）のそれぞれの機能的意味は、構造に基づく配列比較（アライメント）によって確定されたプロファイル相互比較により評価されます。次に、利用できる場合については、機能部位が鋳型から指定条件（クエリ）・鋳型間配列比較の結果へと配置されます。機能的意味によって並べ替えられた鋳型の一覧が返信され、それには説明付き配列比較結果と３次元構造重ね合わせ結果へのリンクがついてきます。

手法

SeSAW は配列と構造に関する情報を残基レベルで統合する対象機能を使っています。これは構造比較した際に対応する残基の組が持つ機能的意味を知るのが目的です[1]。対象機能は、同じファミリーやスーパーファミリーに属する蛋白質と、同じ折りたたみ構造（fold）を持つが、異なるファミリーやスーパーファミリーに属する蛋白質を区別するために最適化したものです。この手法は元来、日本のタンパク3000構造ゲノムプロジェクト[1, 2]で解明された、仮想蛋白質全ての機能を説明するのに使われた手法です。そこで我々は threading またはホモロジーモデリング法によって作られた構造に含まれる機能部位を特定するのに、同じ方法が使えることを発見しました[3]。 SeSAWウェブサーバでは、SeSAWアライメントの多く（50万件以上）のSeSAWスコア分布から計算されたP-valueを使っています（図１）。

図１：SeSAWスコアの頻度（左）とP-value（右）

指定した蛋白質（クエリ）と完全なPDBと配列比較をする計算負荷を最小化するために、代表配列の全組み合わせの間での構造比較は定期的に計算し結果を蓄積しています。クエリ配列はまずこの代表配列群に対して計算が行われ、もっとも構造的に近いものが結果として返されます。次にクエリは蛋白質ドメインパーサー[4]を用いて構造ドメインへと分解され、蛋白質全体だけでなく各ドメインに対しても近い構造を持つものそれぞれに対して比較が行われます。この処理にはASHプログラム[5]を用いています。クエリがホモロジーモデル、または threading モデルの場合、鋳型PDB IDは構造が近いものの一覧を取得するために必要です。

遺伝子オントロジー（GO）などの機能的データは、UniProtなどの情報源より１週間に１度のペースで抽出されます。また、各PDBエントリーのpsiBLAST配列プロファイルは維持され、毎月更新されます。配列、構造、機能のデータベースは急速に成長しているので、SeSAWクエリは常に上述の情報源の最新版を使ってリアルタイムで計算します。どのPDBエントリーにも似ていない構造に対しては、クエリ配列プロファイルはその場で計算する必要があります。結果が出るまでにかかる時間は、構造ドメインの数、類似構造リストの数、PDBエントリーへの類似度、そしてコンピュータの空き状況によって数分から１時間以上の時間がかかります。

利用方法

SeSAWは、PDB IDの入力、またはPDB形式のファイルをアップロードを行うだけで利用できます。なお、鎖ID（chain ID）も必ず指定して下さい。鎖IDは現在のPDB形式のファイルでは必須となっています。指定するファイルが相同体（homology）またはthreadingモデルの場合は、鋳型とするPDB IDと鎖IDを指定することが重要です。なぜなら、この情報は上述の通り構造的に関係するエントリーを指定するのに利用されるからです。結果の受け取り方法は２種類あり、結果が完成次第電子メールで通知するか、直接Webブラウザで閲覧するかを選択することができます。全ての条件はすぐに計算が開始されますが、条件によっては完了までに数時間かかることがあります。そのため、受け取り方法の初期値は「電子メールによる通知」となっています。結果は２週間に１度、私たちのサーバーに蓄えられます。

メインの結果ページを図２に示しました。図2Aでは、鋳型の名前が一番左の列に表示されています。そのそれぞれが日本蛋白質構造データバンク（PDBj）の概要ページ（summary page）にリンクされています[6]。その右には、SeSAWスコア（SeSAW score）と配列一致度が表示されます。また CATH または SCOP によるドメイン名があった場合は表示されます。 "alignment" 列には、配列に関する詳細情報ページへのリンクがあります。図2Bには、JalViewアライメントエディタ（Jalview alignment editor[7]）を用いてアライメント（配列比較）の結果が表示されます。アライメントには既知の機能部位にある残基の位置（可能な場合）、鋳型の二次構造、残基に基づいたSeSAWスコアが表示されます。鋳型に機能説明があった場合、アライメントリンクのそばに "f" の文字が表示されます。一番右の列には、クエリ（指定条件）と鋳型との立体的重ね合わせの結果ページへのリンクが表示されます。アライメントと重ね合わせは ASHプログラム[5] を用いて計算しています。結果は javaベースの分子画像閲覧ソフト jV を使って表示されます[8]。図2Cには、jV アップレットウインドウが示されています。高いスコア結果となった残基の組を結ぶ棒は表示／非表示を切り替えることができます。構造的または機能的に重要な残基群は識別できるようにしてあります。

図２：Toxoplasma gondii（寄生生物の一種）のROP16キナーゼ1型のホモロジーモデルを使ったSeSAWサーバーの結果画面の様子

参考文献

Standley DM, Toh H, Nakamura H. Functional annotation by sequence-weighted structure alignments: statistical analysis and case studies from the Protein 3000 structural genomics project in Japan, Proteins 2008;72:1333-1351.
Standley DM, Nakamura H. [From structures to functions: annotation by structural bioinformatics], Tanpakushitsu Kakusan Koso 2008;53:638-644.
Standley DM, Kinjo AR, Lis M, van der Giezen M, Nakamura H. Structure-based functional annotation of protein sequences guided by comparative models. 2008 Novermber; Lijiang, China. pp395-403.
Alexandrov N, Shindyalov I. PDP: protein domain parser, Bioinformatics 2003;19:429-430.
Standley DM, Toh H, Nakamura H. ASH structure alignment package: sensitivity and selectivity in domain classification, BMC Bioinformatics 2007;8:116.
Standley DM, Kinjo AR, Kinoshita K et al. Protein structure databases with new web services for structural biology and biomedical research, Brief Bioinform 2008;9:276-285.
Clamp M, Cuff J, Searle SM et al. The Jalview Java alignment editor, Bioinformatics 2004;20:426-427.
Kinoshita K, Nakamura H. eF-site and PDBjViewer: database and viewer for protein functional sites, Bioinformatics 2004;20:1329-1330.

作成日: 2017-08-29 (最終更新日: more than 1 year ago)