ソフトウェアとしての成果

Next: プログラムのサイズおよびドキュメント Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要 Previous: 論文リスト

ソフトウェアとしての成果

本研究のソフトウェアは逐次環境および並列環境で動作するシステムの二つである。これらのシステムは以下の 4 つの部分に分けられ、図 --5 に示す。

LR 表作成モジュール
一般化 LR 法では、効率化のため直接文法を用いて文の解析を行なわずに、文法から LR 表というオートマトン(状態遷移図)を生成し、この表を用いて解析する。このモジュールは文脈自由文法を入力データとし、その文法に対応する LR 表を自動作成するものである。本研究の LR 表は Simple LR 表で、もっとも状態数の少ないものである。
Prolog および KL1 節生成モジュール
このモジュールはモジュール(1)に生成された LR 表に対応する Prolog 節および KL1 節を生成する。状態および先読み語の組で一つ一つ節が生成される。 LR 表を直接利用するよりもこのようなコンパイルした節を用いることでパーザの解析速度を向上できる。
LR パーザの主プログラム
このプログラムは大きく適格文を解析する部分と不適格性を検出し修正をほどこす部分から構成される。また、モジュール (2) から生成された節と合わせて完全な LR パーザとして利用する。不適格性を検出し修正をほどこす部分では、誤りの種類および位置を尺度として得られる多数の構文解析木のスコアリングを行なう。ユーザは尺度や重みを変更することにより解析の優先度を自由に変えることができる。また、並列LR パーザでは、ランダム型動的負荷分散および要求駆動型動的負荷分散の二方式をユーザに提供している。
品詞付きモジュール
本モジュールは入力文の各単語に対して品詞を付け、モジュール(3)に渡して構文解析を行なわせる。このモジュールは Brill により提案した品詞付けアルゴリズムを採用している。このアルゴリズムは文内の品詞列のパターンを情報としてコーパスから予め学習しておき、その情報を用いて新たに入力した文に品詞付けを行なう。

図 --5: ソフトウェアの構成

まとめとして本ソフトウェアは以下の特徴を持つ。

本ソフトウェアは、入力文(自然言語文)に対して品詞付けを行ない、予め与えられた文脈自由文法のもとで、その文の構文解析結果を出力する。アルゴリズムは一般化 LR 法に基づいているので、高速な解析が実現できる。
これまでの構文解析ツールのように、システムの文法に適合する文だけでなく、不適格文をも受理できる頑健な構文解析ツールである。その際、文法に適合する文に対しては、不必要な誤り解析は行なわないので、無用な効率の低下を引き起こさない。また、不適格文に対して、必ず誤り修正の最も少ない解析結果が得られる。
解析結果が複数得られる場合、解析結果にスコアをつけ、スコアの低い結果を妥当でないものとして排除し、妥当な結果のみを、その妥当性の順に出力する機能を提供する。また、スコア付け手法としては、誤りの位置、誤りのタイプ、誤りの数によるものを用意しているが、ユーザがスコア付けの手法を自由に設定する機能を実現している。
本ソフトウェアは逐次環境および並列環境の両方を利用することができる。また、並列環境においてランダム型動的負荷分散方式および動的負荷分散方式をユーザに提供している。

www-admin@icot.or.jp