平成7年度 委託研究ソフトウェアの中間報告

(15) 一般化 LR 法を用いた頑健な並列構文解析に関する研究

研究代表者:國藤 進 教授
      北陸先端科学技術大学院大学 情報科学研究科


[中間報告]

1)研究の進捗状況
本研究では,PIMOS 上および UNIX 上で不適格文を解析する頑健な構文解析ツー ルの開発・整備を行なう.具体的には逐次マシンで最も高速な構文解析法であ る一般化 LR 解析法に基づいて頑健な並列構文解析法を考案し,これを PIM 上に実装し効率の評価を行なう.その第一歩として,適格文を対象とした一般 化 LR 解析法を,不適格文解析が行なえるように拡張する.我々は,不適格文 を一般的に「文中に n 箇所の,終端記号(単語)あるいは非終端記号(句)レベ ルの,脱落,挿入,および置換誤りを含んだ文」として捉える.現段階では UNIX 上でProlog を用いた,不適格文を解析する LR 構文解析システムを開発 している.適格文に対して可能な解析結果(構文木)を出力し,不適格文に対 して文内の可能な不適格性の場所や種類を同定し,不適格性を含んだ可能な構 文木の出力が可能となっている.

2)現在までの主な成果
現在までの主な成果は,UNIX 上における Prolog 版の LR 構文解 析システムの実現である.本システムの不適格性(エラー)同定メ カニズムは,構文木内のエラー発生箇所に依存した形で構文解析木 を出力する. 解析において,文の左から右へと 解析を進めていき,解析が失敗した場合は,その位置より左の方に 存在している不適格性位置の同定を行なう.同定の順番は (1) 解 析が失敗している箇所,(2) まだ部分解析木が生成されていない箇 所,(3) 二つの部分解析木が隣接している箇所,(4) 部分解析木内 の箇所である.また複数のエラーを持つ文の解析に対しては, エラーが存在する位置は解析が失敗した位置から前回失敗した位置 までの間に存在する,というヒューリスティックを用いる.尚,入 力文に対しては Eric により開発された Tagger と連結することに より,約 9 万単語の辞書から決定的に解析文の各単語に語彙カテ ゴリを付加している.本システムはその語彙カテゴリと予め用意し た英語の文法に基づいて,実際の会話(具体的には ATR の収録会 話データ 300 文をランダムに抜き取り)の解析可能な範囲 (covarage) と適合率・再現率などの統計解析結果を調べる.

3)今後の研究概要:
不適格文解析では複数の解析結果(構文木)が得られる場合が多い. その中で,人間にとって明らかに間違っている解釈や,間違ってい ないが不自然な解釈などがある.そこで,どの解釈が尤もらしいも のかを決定する必要がある.今後,解析候補の順番づけメカニズム を考案する.また,UNIX 上に開発した頑健な LR 構文解析システム の知見を生かし,KL1 言語を用いた PIM 上における並列 LR 構文 解析システムをインプリメントする.特に一般化 LR 法のスタック管理の並列 化による種々の負荷分散方式を考察し,PIM による評価実験を行な い解析速度に関する台数効果を調べる.

4)今年度目標成果(イメージ)
今年度は不適格文解析における誤り箇所と誤り種別を同定し,その 誤りを修正する頑健な並列一般化 LR 構文解析システムを実現する. システムの既存文法に適合する文のみならず,実際のテキストや対 話文によく現れる様々な非文法的表現や誤りを含む文(不適格文) をも処理できる効率的な並列処理システムの実現を目指す.また,構文的 スコアづけ手法を考案することにより,複数の解析結果から尤もら しさ(解釈の良さ)の度合を表現し,PIM 上における実験評価を行 ない本システムの有効性を確認する.



www-admin@icot.or.jp