MAFFTash

このページの他言語版もあります: English

※この文書は、MAFFTashに関する文書 1, 2 に基づいて作成しました。

[概要]

MAFFTash は配列と構造を組み合わせて複合配列比較（multiple sequence alignment）の計算を行うサービスを提供します。 MAFFTashは MAFFT と ASH という２つの既存プログラムで構成されています。ASH は２つの蛋白質の間で構造的に等価な残基の数を最大化する二重動的プログラミングアルゴリズム（double dynamic programming algorithm）を拡張したものを利用した構造アライメントプログラムです[1-3]。次に広く用いられている複合配列比較プログラム「MAFFT」を使って２分子間の構造比較（ペアワイズ構造アライメント、pairwise structural alignment）を行います[4-9]。 MAFFT はできる限りペアワイズ構造アライメントの結果と矛盾しないように全体の複合アライメントを行う構造アライメントを用いています。構造情報のない類似配列分子（sequence homolog）を比較（アライメント）に含めることもできます。

[使い方]

MAFFTashは配列と構造の両方から複合配列相同性を計算します。 MAFFTashを動作させるには、配列のリストとPDB ID＋鎖ID（chain ID）のどちらか一方または両方を指定する必要があります。配列リストはテキストエリアに貼り付けることも、ファイルをアップロードして指定することもできます。どちらの場合も、配列はFASTA形式で入力する必要があります。またPDB IDと鎖IDはつなげて５文字で指定して下さい（例：1nagA）。各PDB ID＋鎖IDを記述する直前の行には「PDBID」だけを記述して下さい（下例参照）。

>PDBID
3ygsC
>Q6Q899|DDX58_MOUSE| 1-91
MTAAQRQNLQAFRDYIKKILDPTYILSYMSSWLEDEEVQYIQAEKNNKGPMEAASLFLQY
LLKLQSEGWFQAFLDALYHAGYCGLCEAIES
>Q6Q899|DDX58_MOUSE| 101-176
EEHRLLLRRLEPEFKATVDPNDILSELSECLINQECEEIRQIRDTKGRMAGAEKMAECLI
RSDKENWPKVLQLALE
>PDBID
2p1hA

現在では、全てのPDBエントリーにおいて鎖IDは必須となっているので、空白（' '）、ダッシュ（'-'）、アンダーバー（'_'）を鎖IDに指定することはできません。もし鎖IDが分からないときは、 PDBj mine （PDBjエントリー検索）を使って調べて下さい。 PDB IDを入力して検索し、表示される結果Summaryページにある「sequence information (FASTA format)」リンクをクリックすると、そのPDBエントリーの各鎖の配列情報がFASTA形式で表示されます。 MAFFTashは自動的にPDB IDの組を取得する機能も持っています。この機能を利用するには、MAFFTashトップページの Example の下にある「Prep-MAFFTash」リンクをクリックして下さい。

またPDBに登録されているエントリーだけではなく、PDB形式で記述した独自の構造でもMAFFTashを利用することができます。独自の構造をアップロードするには、まずアップロードするファイルの数を指定して下さい。そうすると新しいフォームが現れます。「構造の重み付け」（Structure weight、初期値は.2）によって ASH が MAFFT のアライメントにどれだけ影響するかを制御できます。どんな値がいいかは、構造と配列の比率に依存するので、いろいろ試してみないと分かりません。

[使っている手法]

MAFFTashは最初に ASH プログラムの修正版を使って、全ての組み合わせに対して配列比較を行います。次に、対応する残基の組み合わせを取り出し、構造的に対応する残基の組み合わせも考慮して複合配列比較を行います。

立体構造比較

まず最初に、ASHプログラムを蛋白質ドメインパーサ（Protein Domain Parser）を使って各構造をドメインに分解するよう修正しました。次に、既存のASHプログラムを使ってドメイン内の対応する各残基ペアの配列比較を行います。最後に全体構造に対して完全な１対１の比較（ペアワイズアライメント pairwise alignment）を行います。これは、完全なセットのドメイン間比較から構築された動的プログラミング計算によってつくられます。このようにして、ASH配列比較はドメイン内では固定しているが、ドメイン間では柔軟なのです。

配列比較

複数配列比較は MAFFT プログラムの修正版を使って計算しています。

[Prep-MAFFTash]

MAFFTash は限られた配列群またはPDB IDから有効なMAFFTash入力情報を自動的に用意するツールを提供しています。この機能を利用するには、MAFFTashトップページの例の下にある Prep-MAFFTash リンクをクリックして下さい。

Prep-MAFFTash の入力フォームは MAFFTash ページと同じように配列とPDB IDのどちらか一方または両方を貼り付けることができるテキストウインドウがあります。ところがこちらには MAFFTash ページにはない追加オプションがあります。このオプションは３つのグループに分けることができます。

Add structures （構造の追加）このオプションでは利用するPDBとテキストボックスに入力された入力条件を探すのにBLASTを使います。Prep-MAFFTashの検索を制御する３つのパラメータがあります。
- a. Max seq ID between added structures このパラメータはある特定構造の類例が検索結果に多数出るのを抑えます。初期値は90（%）です。より結果の数を抑えたければ少ない値を、もっと多くの結果を得たいなら大きい値を指定して下さい。100を指定すると入力条件と類似性のあったPDBエントリー全てが追加されます。結果の間引きは cd-hit プログラムを用いて行っています[10]。
- b. Min seq ID from original input このパラメータはBLASTが類似配列をどれぐらい考慮するかを制御します。初期値は20（%）です。このパラメータを増やすとPDBエントリー由来の検索結果数が減少し、減らすとPDBエントリー由来の検索結果数が増加します。但し内部パラメータによって e-value が 0.01 より大きいPDBエントリーは結果に含まれないようになっています。
- c. Min coverage of original input このパラメータは特定のPDBエントリーが条件として入力した配列をどれだけ「カバー」しなければならないかを決めます。初期値は50（%）です。理想的には構造が全て、あるいはほとんどの条件配列をカバーして欲しいところですが、そうでなければ条件配列をドメイン別へと分割することを検討した方がいいかもしれません。
Add ASH structural neighbors （ASH類似構造の追加）この機能を使うと条件として指定した配列と似た構造を持ったものを結果として引き出すことができます。もし１つ以上の条件配列があらかじめ計算されたアライメント結果の構造と一致した場合、構造的に似ているものの一覧を以下のオプション指定を追加することにより追加することができます。
- a. Max seq ID between added structures このパラメータは上記1.a. と似ていますが、ASHの類似構造を使うところだけが違っています。初期値は90（%）です。
- b. Min seq ID from original input このパラメータは上記1.b.と似ていますが、ASHの類似構造を使うところだけが違っています。初期値は0です。
Add sequences （配列の追加）この機能を使うと、UniRef データベースから配列を引き出すことができます。このオプションは上記のオプションと似ています。
- a. Max seq ID between added sequences このオプションは上記1.a.と似ていますが、Uniref100 の配列を使うところが違っています。この値を大きくし過ぎると多くの類似配列が結果に含まれてしまう可能性があることに注意して下さい。初期値は90（%）です。
  - b. Min seq ID from original このパラメータは上記1.b.と似ていますが、Uniref100 の配列を使うところが違っています。目的の結果がはっきりしない時は、配列を追加しすぎないように注意して下さい。初期値は0です。

Prep-MAFFTash の出力は MAFFTash の入力ファイル形式ぴったりになっているので、結果をそのまま MAFFTash のテキストウインドウに貼り付けたり、ファイルをアップロードしたりすることができます。

[MAFFTash の出力結果]

MAFFTash は結果ページができあがると、結果ページへのリンクを記した電子メールを送信します。複合配列アライメント結果はウェブブラウザを使って、Jalview[11]による形式だけでなく、FASTA形式の複合配列アライメント（テキストファイル）でも見ることができます。

図１：MAFFTash アライメント結果

[参照文献]

Standley, Toh, Nakamura,ASH structure alignment package: sensitivity and selectivity in domain classification., BMC Bioinformatics 8 (4),116 (2007) Link
Standley, Toh, Nakamura,GASH: an improved algorithm for maximizing the number of equivalent residues between two protein structures., BMC Bioinformatics 6 ,221,(2005) Link
Standley, Toh, Nakamura,Detecting local structural similarity in proteins by maximizing number of equivalent residues, Proteins 57 (2),381-91 (2004) Link
Katoh, Asimenos, Toh,Multiple Alignment of DNA Sequences with MAFFT. In Bioinformatics for DNA Sequence Analysis edited by D. Posada, Methods in Molecular Biology 537,39-64 (2009) Link
Katoh, Toh,Improved accuracy of multiple ncRNA alignment by incorporating structural information into a MAFFT-based framework., BMC Bioinformatics 9,212 (2008) Link
Katoh, Toh,Recent developments in the MAFFT multiple sequence alignment program., Briefings in Bioinformatics 9, 286-298 (2008) Link
Katoh, Toh,PartTree: an algorithm to build an approximate tree from a large number of unaligned sequences., Bioinformatics 23, 372-374 (2007) Link Errata
Katoh, Kuma, Toh, Miyata,MAFFT version 5: improvement in accuracy of multiple sequence alignment., Nucleic Acids Res. 33, 511-518 (2005) Link
Katoh, Misawa, Kuma, Miyata,MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform., Nucleic Acids Res. 30, 3059-3066 (2002) Link
Li, Jaroszewski, Godzik,Clustering of highly homologous sequences to reduce the size of large protein databases., Bioinformatics 17, 282-283 (2001) Link
Waterhouse, Procter, Martin, Clamp, Barton,Jalview Version 2--a multiple sequence alignment editor and analysis workbench., Bioinformatics 25 (9), 1189-119 (2009) Link

作成日: 2012-07-13 (最終更新日: more than 1 year ago)