現在までの主な成果は,UNIX 上で動作する prolog 版の頑健な一般化 LR 構 文解析システムの実現である.本システムが対象にする誤りの種類は,単語の 置換誤り,挿入誤り,脱落誤りおよび,句構造の挿入誤り,脱落誤りである. 本システムは,通常の解析において途中で解析に失敗した場合,1箇所の誤り 修正処理を行ない,修正に成功した場合には再び解析を開始し,その後も解析 に失敗するごとに1箇所の誤り修正処理を行ないながら,文末に到達するまで 解析を行なう.誤り箇所は,解析に失敗した位置より左の方に存在しているは ずであるが,以下の順序で,その箇所を推定する,(1) 解析に失敗した箇所, (2) まだ部分解析木が生成されていない箇所,(3) 二つの部分解析木が隣接し ている箇所,(4) 部分解析木内の箇所.このアルゴリズムには以下の特徴があ る.(1) 正しい文に対しては通常の解析を行い,無駄な処理はしない.(2)エ ラー発生までに解析した情報を利用可能である.(3) 出力結果は修正回数が最 も少ないものだけが得られる.(4) 1 回の誤り修正処理に対して 1 箇所の誤 りの出現を仮定している.
このような不適格文に対応するためのアルゴリズムを用いて解析を行うと,文 法自身の持つ曖昧性に加え,修正した誤りの種類による曖昧性も組み合わされ ることになる.そのため,不適格文解析によって得られる構文木 (解の候補) の数は,不適格文解析を行わない場合に比べ非常に多くなってしまう.これ は実用的なシステムを構築する際には大きな問題となってくる.そこで,何ら かの尺度で解の候補の尤もらしさを計算し,それによって解の候補の数を絞り 込むことが必要となる.本システムでは,誤りの箇所および誤りの種類,誤り 箇所の大きさに基づいたスコアを計算することで,解の候補の尤もらしさとし ている.
本システムは,既存の形態素解析器(Tagger)と連結して動作する.入力文中の 各単語に対して,Brill により開発された Tagger を用いて決定的に品詞を付 与した結果,得られる品詞列を入力とし,構文解析結果を出力するプログラム として,頑健な構文解析ツールは動作する.本システムの有効性を,予め用意 した規則数260の英語の文法および,ATRの英語対話コーパスから取り出した 300文を用いて評価した.その結果,300 文中,文法のみによって解析できる 文は 140 文 (46.7 %)であるが,本システムの不適格文解析によって解析でき る文は 272 文 (90.7 %)であった.このうち,得られた結果に正解を含んでい る文は,前者では 134 文であり,後者では,251 文であった.