|
[目次] 1. アライメントとは何か?
アミノ酸/塩基配列の類似性解析の中でも基本的なもののひとつは、複数の配列の類似する部分を縦に揃えて並べ合わせる操作で、これをマルチプルアライメント(Multiple Alignment)と呼びます。 copia :ILDFHEKLLHPGIQKTTKLFGETYYFPNSQLLIQNIINECSICNLAK MMULV:LLDFLLHQLTHLSFSKMKALLERSHSPYYMLNRDRTLKNITETCKACAQVN HTLV :LQLSPAELHSFTHCGQTALTLQGATTTEASNILRSCHACRGGN RSV :YPLREAKDLHTALHIGPRALSKACNISMQQAREVVQTCPHCNSA MMTV :IHEATQAHTLHHLNAHTLRLLYKITREQARDIVKACKQCVVAT SMRV :LESAQESHALHHQNAAALRFQFHITREQAREIVKLCPNCPDWGS (a) アライメントする前の配列 copia :IL-DF----HEKLLHPGIQKTTK-LF--GET-YY-FPNSQLLIQNIINECSICNL-AK M-MULV:LL-DFL--LHQ-LTHLSFSKM-KALLERSHSPYYMLNRDRTL-KNITETCKACAQ-VN HTLV :LQLSPA-ELHS-FTHCGQTAL-T-LQ--------GATTTEA--SNILRSCHACRG-GN RSV :YPLREAKDLHT-ALHIGPRAL-S-KA-------CNISMQQA--REVVQTCPHC-N-SA MMTV :IH-EAT-QAHT-LHHLNAHTL-R-LL-------YKITREQA--RDIVKACKQCVV-AT SMRV :LE-SAQ-ESHA-LHHQNAAAL-R-FQ-------FHITREQA--REIVKLCPNCPDWGS ^....^ ^..^ (b) アライメント結果
図(b)には (a)をアライメントした結果が示してあります。同じアミノ酸や性質の似たアミノ酸が縦に同じカラム位置になるように、ところどころハイフンが挿入されています。このハイフンをギャップ(gap)とよびます。 ![]()
図はタンパク質のうちジンクフィンガー部分に相当する立体構造を示しています。Cが2個とHが2個で亜鉛イオンに結合することで、「指」に相当する構造が形成され、DNAの2重らせんの溝に、それらの「指」が入り込むことで、特定のDNA配列を認識・結合するという機能があります。図(b)でアライメントにより抽出されたパターンは、ジンクフィンガーのモチーフである可能性が高いといえます。 ![]()
アライメントのうち比較的類似したアミノ酸が縦に並んでおり、ギャップの入り方も少ない領域を、保存部位(conservative site)といいます。図(b)では、2個の Hの周辺、2個の Cの周辺は保存性が高いのに対して、その間の配列中央部は大きなギャップが入っており保存性が低くなっています。保存性の高い部位は、配列のなかでもタンパク質の構造や機能の実現のうえで重要な部分であると推測できます。
重要な配列部分は進化の過程のなかで保存されるので、生き残っている生物の同種のタンパク質をアライメントで調べると、保存部位を発見することができます。
目次に戻る 2. アライメントの利用目的
アライメントのうち、対象とする配列の数が2本のものをペアワイズアライメント(pairwise alignment)と呼び、3本以上のものをマルチプルアライメント(multiple alignment)と呼んで区別をしています。 2.1.ペアワイズアライメント
ペアワイズアライメントは、基本的に配列と配列との類似性の度合を求めることに使われます。
2.2.マルチプルアライメント
マルチプルアライメントは一度に複数本を比較するので、配列に存在するノイズの影響をあまり受けることなく、ペアワイズアライメントに比べて、より効果的に配列の共通性を見い出すことができます。
目次に戻る 3. 従来のアライメント解析技術ここでは、従来の解析技術について解説します。3.1.ペアワイズアライメント
アミノ酸の類似性とギャップの入りにくさに対して生物学的・物理学的視点からスコアを割り当て、アライメント全体の評価値を定義すると、配列2本(ペアワイズ)のアライメントは、アライメント全体の評価値を最適化するようなマッチング(global matching)問題とみることができます。この問題は、ダイナミックプログラミング(以下DP)の技術で解くことができます。
DPは、最適化問題の解法として古くから知られていた技術で、生物の配列マッチングに応用されたのも古く、1970年には最初の試みが行なわれています。 ![]()
図のように、GKFD, GFVDという2つの短い配列をアライメントする場合、この2つの配列を図のような2次元のネットワークの辺に対応させます。斜め方向のアーク(矢)は、そのアークの位置に対応する2つのアミノ酸の類似度が割り振られます。アミノ酸の類似度には、Dayhoffマトリックス(PAM250)が一般的に用いられています。この尺度は、進化の過程で該当アミノ酸間での置換がどの程度起こりやすいかを推定し、数値化したものです。 3.2.マルチプルアライメント
DPを多次元化することで、複数配列のマルチプルアライメントを行うことが、原理的には可能になります。たとえば、配列3本のアライメントには、3次元DPの処理を行うことになります。 3.2.1.単純組合せ法
単純な組合せ法は配列1と配列2、配列2と配列3、という具合に配列を2本ずつペアワイズにアライメントし、その結果を次々と組合せてマルチプルアライメントを作る方法です。ペアワイズのアライメントには、通常ダイナミックプログラミングが用いられます。しかし、この方法で得られるアライメントの品質はあまり良いものではありません。一番大きな問題は、一緒に比較していない配列同士の類似部分が、組合せたときにズレてしまうことです。処理する配列群の類似性が低いときには、特にこの現象が顕著になります。 3.2.2.逐次組合せ法
逐次組合せ法は4本の配列(seq1,seq2, seq3, seq4)のアライメントを行うとき、次の手順で処理をします。
3.2.3.グループ間DPによるアライメント
グループ間のDPとは、配列群Aと配列群Bとを、配列群内の各々のアライメントはくずさずに、2次元のDPをするものです。グループ間DPを行うときには、各アークに割当てられるアミノ酸の類似度が、そのアークの位置に対応する配列群Aのアミノ酸と、配列群Bのアミノ酸との類似度の総和になります。配列群Aが2本で、配列群Bが3本のときは、6通りのアミノ酸対に関する類似度の和をとることになります。類似度にはペアワイズDPと同様に、Dayhoffマトリックスを使用します。 3.2.4.ツリーベース組合せ法![]()
ツリーベース組合せ法は、配列間の類似性に従って描かれたツリー状の階層関係に基づいて、類似性の高い配列から順にマルチプルアライメントを形成していく手法です。類似した配列から順に組合せれば、組合せ法によって得られるアライメントの精度を大きく改善することができます。類似した配列同士のアライメントは確実で、信頼性が高いからです。
配列間の類似性に従ってツリーを描き、ツリーの枝先から幹に向かって、枝が合わさる部分ごとに、ふたつの枝に相当するふたつの配列群をDPして、マルチプルアライメントを作っていきます。そうすると最後には、全体のアライメントが得られます。 3.2.5.反復改善法反復改善法は、グループ間DPを反復的に適用することによりアライメントを徐々に改善する方法です。
目次に戻る 4.並列計算機の応用
前節で紹介した反復改善法は強力な方法ですが、いくつかの問題点があります。
第1は解の質の問題です。反復改善法では評価値がだんだんと改善されますが、どの程度の解に至るかは、配列をランダムに分けるのに使用する乱数や、初期状態に大きく左右されます。 4.1.最良探索反復改善法
グループ間DPを繰返すと、マルチプルアライメントの評価値が初期状態から次第に良くなっていきますが、どこまでも単調に良くなるわけではありません。乱数の与え方によりアライメントが不適当な方向へ進むと、比較的悪い局所最適値(local optima)に陥ってしまい、それ以上もはや改善されない状態になります。最良探索(best-first search)を用いると、安定して比較的良い解を求めることができます。
4.2.ツリーベース反復改善法
ツリーベース反復改善法は、ツリーベース組合せ法と同様に始めにツリーを作成し、そのツリーに従ってグループ間DPで配列を次々とアライメントしていきますが、配列群をアライメントしたのちには必ず、上記の並列反復改善法を適用します。 4.3.遺伝的アルゴリズム(GA)を用いるアライメント![]()
遺伝的アルゴリズムは図に示すように、多くの「個体」からなる集団が世代交代を繰り返すことで、「個体」の平均「適応率」をあげようとするものです 。「個体」を組合せ問題の解、「適応率」を解の評価値に対応させることで、組合せ最適化問題に応用することができます。
では、このGAをマルチプルアライメントに応用してみましょう。「個体」に暫定的なマルチプルアライメントを、「適応率」にそのアライメントの評価値を対応させます。 そして、突然変異、クロスオーバー、淘汰、繁殖を次のように適用します。
![]() ![]() このような操作の設定によりかなり特徴の異なる探索を実現することができます。
ICOTでは、GAを用いたアライメントを並列計算機に実装しました。 目次に戻る 5.アライメントワークベンチ
反復改善法では、マルチプルアライメントに与える評価値の体系は変えずに、とにかくその体系のもとで最も点数の高い結果を得ることを主眼としていました。しかし、系統樹解析の観点からすると、評価値体系は配列の系統関係の推定により変わり得るものであり、また、立体構造解析の観点からみて良いアライメントは、系統樹解析の観点からみて良いアライメントとは必ずしも一致しないという議論もあります。
ユーザーのインタラクティブな操作で、並列計算機を使いながらマルチプルアライメントの問題を解くワークベンチを、ICOTでは、開発・提供しています。 |