研究の成果

Next: ソフトウェアとしての成果 Up: 一般化 LR 法を用いた頑健な並列構文解析に関する研究 Previous: 研究の内容

研究の成果

現在までの主な成果は，UNIX 上で動作する prolog 版の頑健な一般化 LR 構文解析システムの実現である．本システムが対象にする誤りの種類は，単語の置換誤り，挿入誤り，脱落誤りおよび，句構造の挿入誤り，脱落誤りである．本システムは，通常の解析において途中で解析に失敗した場合，1箇所の誤り修正処理を行ない，修正に成功した場合には再び解析を開始し，その後も解析に失敗するごとに1箇所の誤り修正処理を行ないながら，文末に到達するまで解析を行なう．誤り箇所は，解析に失敗した位置より左の方に存在しているはずであるが，以下の順序で，その箇所を推定する，(1) 解析に失敗した箇所， (2) まだ部分解析木が生成されていない箇所，(3) 二つの部分解析木が隣接している箇所，(4) 部分解析木内の箇所．このアルゴリズムには以下の特徴がある．(1) 正しい文に対しては通常の解析を行い，無駄な処理はしない．(2)エラー発生までに解析した情報を利用可能である．(3) 出力結果は修正回数が最も少ないものだけが得られる．(4) 1 回の誤り修正処理に対して 1 箇所の誤りの出現を仮定している．

このような不適格文に対応するためのアルゴリズムを用いて解析を行うと，文法自身の持つ曖昧性に加え，修正した誤りの種類による曖昧性も組み合わされることになる．そのため，不適格文解析によって得られる構文木 (解の候補) の数は，不適格文解析を行わない場合に比べ非常に多くなってしまう．これは実用的なシステムを構築する際には大きな問題となってくる．そこで，何らかの尺度で解の候補の尤もらしさを計算し，それによって解の候補の数を絞り込むことが必要となる．本システムでは，誤りの箇所および誤りの種類，誤り箇所の大きさに基づいたスコアを計算することで，解の候補の尤もらしさとしている．

本システムは，既存の形態素解析器(Tagger)と連結して動作する．入力文中の各単語に対して，Brill により開発された Tagger を用いて決定的に品詞を付与した結果，得られる品詞列を入力とし，構文解析結果を出力するプログラムとして，頑健な構文解析ツールは動作する．本システムの有効性を，予め用意した規則数260の英語の文法および，ATRの英語対話コーパスから取り出した 300文を用いて評価した．その結果，300 文中，文法のみによって解析できる文は 140 文 (46.7 %)であるが，本システムの不適格文解析によって解析できる文は 272 文 (90.7 %)であった．このうち，得られた結果に正解を含んでいる文は，前者では 134 文であり，後者では，251 文であった．

www-admin@icot.or.jp