平成７年度　委託研究ソフトウェアの中間報告

(15) 一般化 LR 法を用いた頑健な並列構文解析に関する研究

研究代表者：國藤進教授
　　　　　　北陸先端科学技術大学院大学情報科学研究科

［中間報告］

１）研究の進捗状況: 本研究では，PIMOS 上および UNIX 上で不適格文を解析する頑健な構文解析ツールの開発・整備を行なう．具体的には逐次マシンで最も高速な構文解析法である一般化 LR 解析法に基づいて頑健な並列構文解析法を考案し，これを PIM 上に実装し効率の評価を行なう．その第一歩として，適格文を対象とした一般化 LR 解析法を，不適格文解析が行なえるように拡張する．我々は，不適格文を一般的に「文中に n 箇所の，終端記号(単語)あるいは非終端記号(句)レベルの，脱落，挿入，および置換誤りを含んだ文」として捉える．現段階では UNIX 上でProlog を用いた，不適格文を解析する LR 構文解析システムを開発している．適格文に対して可能な解析結果（構文木）を出力し，不適格文に対して文内の可能な不適格性の場所や種類を同定し，不適格性を含んだ可能な構文木の出力が可能となっている．
２）現在までの主な成果: 現在までの主な成果は，UNIX 上における Prolog 版の LR 構文解析システムの実現である．本システムの不適格性（エラー）同定メカニズムは，構文木内のエラー発生箇所に依存した形で構文解析木を出力する. 解析において，文の左から右へと解析を進めていき，解析が失敗した場合は，その位置より左の方に存在している不適格性位置の同定を行なう．同定の順番は (1) 解析が失敗している箇所，(2) まだ部分解析木が生成されていない箇所，(3) 二つの部分解析木が隣接している箇所，(4) 部分解析木内の箇所である．また複数のエラーを持つ文の解析に対しては，エラーが存在する位置は解析が失敗した位置から前回失敗した位置までの間に存在する，というヒューリスティックを用いる．尚，入力文に対しては Eric により開発された Tagger と連結することにより，約 9 万単語の辞書から決定的に解析文の各単語に語彙カテゴリを付加している．本システムはその語彙カテゴリと予め用意した英語の文法に基づいて，実際の会話（具体的には ATR の収録会話データ 300 文をランダムに抜き取り）の解析可能な範囲 (covarage) と適合率・再現率などの統計解析結果を調べる．
３）今後の研究概要：: 不適格文解析では複数の解析結果（構文木）が得られる場合が多い．その中で，人間にとって明らかに間違っている解釈や，間違っていないが不自然な解釈などがある．そこで，どの解釈が尤もらしいものかを決定する必要がある．今後，解析候補の順番づけメカニズムを考案する．また，UNIX 上に開発した頑健な LR 構文解析システムの知見を生かし，KL1 言語を用いた PIM 上における並列 LR 構文解析システムをインプリメントする．特に一般化 LR 法のスタック管理の並列化による種々の負荷分散方式を考察し，PIM による評価実験を行ない解析速度に関する台数効果を調べる．
４）今年度目標成果（イメージ）: 今年度は不適格文解析における誤り箇所と誤り種別を同定し，その誤りを修正する頑健な並列一般化 LR 構文解析システムを実現する．システムの既存文法に適合する文のみならず，実際のテキストや対話文によく現れる様々な非文法的表現や誤りを含む文（不適格文）をも処理できる効率的な並列処理システムの実現を目指す．また，構文的スコアづけ手法を考案することにより，複数の解析結果から尤もらしさ（解釈の良さ）の度合を表現し，PIM 上における実験評価を行ない本システムの有効性を確認する．

www-admin@icot.or.jp