next up previous
Next: 研究の成果 Up: 「EDR辞書を用いた日本語解析ツール」に関する成果概要 Previous: 研究の背景と目的

研究の内容

まずはじめに、EDR辞書用の形態素接続表を整備する。日本語解析ツールの 中核となる解析アルゴリズムとして一般化LR法を用いる。これは構文解析用と して開発されたアルゴリズムである。一般化LR法では文脈自由文法をプリコン パイルしたLR表をあらかじめ抽出しておく。LR表は構文解析を行なう上で指令 書の役割を果たすものであるが、そこに含まれる制約は、文脈自由文法に含ま れるのに限られる。形態素間の接続表に関する制約は含まれない。

ところが我々は最近、LR表に形態素間の接続表に関する制約を組み込む新し い方法を開発している。この方法によれば、LR表には文脈自由文法の制約と接 続表の制約とが同時に含まれていることになる。このLR表を用いて、一般化LR 法に基づく解析を行なえば、形態素解析と構文解析とを完全に融合することが できる。この新しい方法によれば一般化LR法という一つの解析アルゴリズムを 用いて形態素解析と構文解析とを同時に進めることができるので効率的な解析 を行なうことができる。本研究ではこれらを組み込んだ効率の良い日本語解析 用ツールを、EDR辞書をベースに構築する。

このときの一つの問題は、一般化LR法で用いるLR表生成アルゴリズムの生成 速度が、文脈自由文法規則の数が増えるにつれて極端に遅くなることである。 ちなみにATRで開発したLR表生成システムでは、三千弱の文脈自由文法規則の LR表生成を行なうのに、20MIPS程度のワークステーション上で数日動作させて もLR表の生成ができなかった。本日本語解析システムをツールとするために は、それに組み込むLR表生成プログラムが十分高速でなければならない。われ われは、ATRのLR表生成プログラムが低速である理由を検討しており、中間段 階でできるデータ構造を変えることで、十分高速なLR表生成が可能であるとの 見通しを得ている。本研究で開発する日本解析システムには、このLR表生成ア ルゴリズムを組み込む。そして、LR表に形態素間の接続表の制約を組み込むア ルゴリズムを開発する。

最近LR表に接続表の制約を組み込むことで、LR表中のある指令をつぎつぎに 削除し、LR表から無用な指令を消し、LR表をコンパクトにするとともに、この LR表を用いた解析の効率を向上させる方法を開発した。これは制約伝播法と我 々はよんでいる。制約伝播法の、LR表への組み込みアルゴリズムの、LR表生成 プログラムへの組み込みを行なう。

一般化LR法は横型探索法をベースにしている。そのために並列計算が可能で あり、その有効性は昨年までのICOTの委託研究により明らかにされている。本 研究で開発する日本語解析システムをKLICを用いて記述することも検討する。 検討結果により、2年度に実装を行なうためにICOT委託研究への応募する。

最後に、日本語解析システムのツールとしての使用を容易にするためのユー ザインタフェースを開発する。



www-admin@icot.or.jp