研究の成果

Next: 残された課題 Up: 「最尤法を用いた分子進化系統樹作成プログラム」に関する成果概要 Previous: 研究の内容

研究の成果

ソフトウェアの成果

研究の初期段階においては、与えられた系統樹の尤度を計算するための方程式の構造を、そのままKL1でコーディングしたが、この結果得られた結果は、きわめて悲観的なものだった。再帰的に尤度を計算するアルゴリズムに検討を加え、再帰的な計算の途中で生じる中間結果をベクターとして保存するようにしたところ、劇的な高速化を達成できた。

プログラムの尤度曲面の変化の様子を視覚化するためのプログラム contour/1 をPIM上に実装し、その後Sunワークステーション上に移植した。このプログラムを用いると、系統樹の任意の2本の枝を少しずつ変化させたとき、尤度曲面がどのような振る舞いをするかを直感的に観察することができ、その性質を研究するのに有用である。だだし、系統樹作成法における尤度という尺度の解析的な研究は今後必要である。contour/1 の負荷分散の実験は、 PIM/m上のみで行った。多量の浮動少数点演算をともなう計算において、我々が期待するような負荷分散の結果が得られた。

実用的なサイズのアミノ酸配列を扱えるよう改良した枝長最適化プログラム、 traverse/3 をKL1で書いたが、現在のところPIM上では動作していない。原因は、プログラムの稼働中にシステムがメモリ不足に陥り、OSそのものが停止してしまうからである。ゴール・プライオリティの変更やプログラムの修正を行い、要求メモリ量の圧縮を試みたが、現在のところごく少量のデータを用いた場合を除いて、すべて失敗している。

他方、新たに構築したPVMによる分散環境では、traverse/3 は動作に成功している。理由は、後者の方が1CPU当たりのメモリ資源の大きさが圧倒的に大きいからであると考えられる。このプログラムを用いて、距離行列法て推定した系統樹の枝長を再推定するなどの研究を行った。

traverse/3 に与えるためのトポロジーを生成する topology/2 をKL1で書いた。これは、いわば完全探索のための仮説空間生成器である。 traverse/3 と topology/2 を結合して、go/0 というプログラムを書き、分散環境に実装した。

我々はデータ解析の仕事において必要なプログラムを、基本的にKL1を用いて書いている。その結果、実用的なデータ解析プログラムの資産が蓄積しつつある。例えば、データベースの検索、データの抽出、ドットマトリックスの作成、そして文献データベースの生成プログラム等である。

開発したプログラム(述語)の一覧は以下のようになる。括弧内はモジュール名とKL1プログラムの行数を表す。

ancestor/3: Infers an ancestral site for a pair of descendants (ancestor:345).
beautify/2: Beautifies a printed format of a nested list structure, especially for expressing structure of a database (beautify:122).
b/4: Generates a binomial distribution (probability:87).
c/3: Takes a binomial coefficient (probability:87).
c2b/2: Converts a cluster-like topology format to a branch-like one (tree:442).
clike/8: Computes a conditional likelihood value (traverse:1924).
cofactor3/3: Calculates a cofactor for a given 3x3 matrix (matrix:103).
consensus/2: Generates the consensus sequence for a given set of sequences (consensus:96).
connect/3: Finds the descendant nodes for a given node (tree:442).
connect/4: Finds the descendant nodes for a given node in a unrooted tree (tree:442).
convert_tree/2: Converts a distance (Number of substitution) to an internal expression P (traverse:1924).
curvature/5: Draws a likelihood surface for given two nucleotide sequences in a tree (curvature:597).
dX/3: Computes a unbiased dx for given sequences (dX:215).
det2/2: Calculates a determinant of a given 2x2 matrix (matrix:103).
det3/2: Calculates a determinant of a given 3x3 matrix (matrix:103).
divide/3: Divides a list into a given number of segments equally (divide:104).
dot_matrix/4: Generates a dot matrix (dot_matrix:125).
extract_author/2: Extracts authors from PIR database (extract_author:70).
extract_fields/3: Extracts selected fields from PIR database (extract_fields:235).
factorial/2: Takes an approximate factorial to a given floating point number (float:59).
floatadd/3: Adds floating point data having arbitrary accuracy (add:185).
format/2: Makes formatted lists from blocked lines (format:149).
fx/8: Computes Fx (fx:306).
get_seq: Reads aligned sequences, and makes a character state format (get_seq:554).
int:factorial/2: Takes an exact factorial to a given integer (int:18).
interleave/2: Converts an interleaved format to a blocked format (interleave:118).
invert/2: Inverts an order of a given list (invert:23).
lines2string/2: Converts given lines to a string (lines2string:29).
join/3: Joins two lists (list:71).
join_lists/2: Joins lists (list:71).
get_flat_list/2: gets a flat list from a nested list (list:71).
log_like/5: Computes log likelihood for a given tree (log_like:324).
make_bib/2: Makes a bibliography from PIR database (make_bib:952).
make_destbl/2: Makes a description table for annotating a given tree (make_destbl:276).
make_gap_matrix/2: Makes a minimum gap matrix (mgm) (make_gap_matrix:408).
make_records/2: Makes records from PIR database (make_records:254).
make_seq/2: Extract sequences from PIR database, and converts them to FASTA format (make_seq:493).
minor3/2: Calculates a minor of a given 3x3 matrix (matrix:103).
minorm/4: Generates a minor matrix of a given matrix (matrix:103).
newton/7: Solves a given equation by the newton method (newton:616).
p/3: Calculates number of permutations (probability:87).
plot_like/3: Plots likelihood values (plot_like:575).
plot_xyz/1: Plots 3-D coordinates from a given list(termio:171).
print_sequences/2: Prints sequence from a list of integer-presented sequence data (print_sequences:93).
putt/1: Puts a Prolog term to standard output (termio:171).
putts/1: Puts a Prolog terms to standard output (termio:171).
read_terms/2: Reads Prolog terms from a given file (termio:171).
remove_gap_site/2: Removes gap sites from given sequences, and generates input file for traverse/3 (remove_gap_site:188).
search_str/3: Searches a string (search_str:158).
starling/2: Calculates a factorial by Starling's formula (probability:87).
str2lst/2: Converts a string to a list (string:52).
synonymous/3: Computes numbers of synonymous and nonsynonymous sites of a given sequence (synonymous:372).
topology/2: Generates a topology space for a given number of sequences (tree:442).
traverse/4: Optimizes branch lengths of a given trees according to likelihood values (traverse:1924).

このうち、述語traverse/4の出力例を図--2に示す。

図 --2: 述語traverse/4の出力例。グラフィックデータの表示にはTreeview (Page R., 1996)を用いている。

研究上の成果

contour/1 による、人工的なデータを用いて描いた尤度曲面から、場合によってはこの曲面がきわめて扁平で非対称な形をしていることがわかった。実際には枝長の最適化アルゴリズムとは言っても、曲面の微分値が0になる点を、EM アルゴリズムで探索しているに過ぎないので、プログラムがどのような探索パスをたどるかによって、結果が変わってくる可能性がある。少なくともこの尤度曲面を描いたデータセットからは、枝長の長い方からではなく、短い方から探索を開始すべきであるということが示唆される。なぜなら、EMアルゴリズムに与える初期値が最大尤度に対応する値より大きい場合、探索パスが最大尤度点に達することができないとすると、推定された枝長はより大きな誤りを含むからである。もちろん、探索パスが最大尤度点近傍を通り越したとき後戻りできるようにアルゴリズムを書くことはできる。しかし、この場合も本質的な解決になるわけではない。今度は枝長の短い方から探索を開始した場合、同じ問題にぶつかってしまうからである。このように考えると、どこから尤度曲面上の探索を開始するかということは、厳密に尤度曲面の頂上を決めようとするとき重要な問題となってくることがわかった。

traverse/3 は、1回目の枝長の最適化で、ほぼ最大尤度を得ることができる。むしろ、2回目以降は微々たる改良でしかない。現在のアルゴリズムでは、改良された尤度の差を見て探索の打ち切りを決めているのだが、この1回目の改良された尤度の値を見て、これ以降の処理を続けるかどうかを判断できるかもしれない。つまり、多くの系統樹を吟味し、1回目の改良で得られた尤度と真の尤度との間の関係を統計的に調べるのである。。また、トポロジーに無理のある系統樹の尤度はなかなか改良されないと予想できる。つまりこのような系統樹の尤度曲面は、きわめて「平坦」となる。このことが統計的に有意であることを示せれば、改良のための繰り返し回数は、処理の打ち切りのためのよい指標となろう。

なお、本研究は以下の学会等で発表された。

OOta S., Saitou N., and Kunifuji S.: Inference of the Phylogenetic Relationship Among Motor Proteins Using a Newly Developed Program for the Maximum Likelihood Method. International Symposium on Network and Evolution of Molecular Information (NEMI), Tokyo, April.
OOta S., Saitou N., and Kunifuji S.: Inference of the Phylogenetic Relationship Among Motor Proteins Using a Newly Developed Program for the Maximum Likelihood Method. The Fourth Annual Meeting of the Society for Molecular Biology and Evolution (SMBE4), Tucson, June.
太田聡史、斎藤成也：最尤推定プログラムによるモータータンパク質間の進化的関係の推定。第19回日本分子生物学・第69日本生化学会大会合同年会(名古屋)，８月。
太田聡史、斎藤成也：モータータンパク質の進化的関係の推定。日本遺伝学会第６８回大会(名古屋)，１０月。

Next: 残された課題 Up: 「最尤法を用いた分子進化系統樹作成プログラム」に関する成果概要 Previous: 研究の内容

www-admin@icot.or.jp