本研究のソフトウェアは逐次環境および並列環境で動作するシステムの二つで ある。これらのシステムは以下の 4 つの部分に分けられ、図 --5 に示す。
一般化 LR 法では、効率化のため直接文法を用いて文の解析を行なわずに、文 法から LR 表というオートマトン(状態遷移図)を生成し、この表を用いて解析 する。このモジュールは文脈自由文法を入力データとし、その文法に対応する LR 表を自動作成するものである。本研究の LR 表は Simple LR 表で、もっと も状態数の少ないものである。
このモジュールはモジュール(1)に生成された LR 表に対応する Prolog 節お よび KL1 節を生成する。状態および先読み語の組で一つ一つ節が生成される。 LR 表を直接利用するよりもこのようなコンパイルした節を用いることでパー ザの解析速度を向上できる。
このプログラムは大きく適格文を解析する部分と不適格性を検出し修正をほど こす部分から構成される。また、モジュール (2) から生成された節と合わせ て完全な LR パーザとして利用する。不適格性を検出し修正をほどこす部分で は、誤りの種類および位置を尺度として得られる多数の構文解析木のスコア リングを行なう。ユーザは尺度や重みを変更することにより解析の優先度を自 由に変えることができる。また、並列LR パーザでは、ランダム型動的負荷分 散および要求駆動型動的負荷分散の二方式をユーザに提供している。
本モジュールは入力文の各単語に対して品詞を付け、モジュール(3)に渡して 構文解析を行なわせる。このモジュールは Brill により提案した品詞付けア ルゴリズムを採用している。このアルゴリズムは文内の品詞列のパターンを情 報としてコーパスから予め学習しておき、その情報を用いて新たに入力した文 に品詞付けを行なう。
まとめとして本ソフトウェアは以下の特徴を持つ。