(15) 一般化 LR 法を用いた頑健な並列構文解析に関する研究
研究代表者:國藤 進 教授
北陸先端科学技術大学院大学 情報科学研究科
- 1)研究の進捗状況
-
本研究では,PIMOS 上および UNIX 上で不適格文を解析する頑健な構文解析ツー
ルの開発・整備を行なう.具体的には逐次マシンで最も高速な構文解析法であ
る一般化 LR 解析法に基づいて頑健な並列構文解析法を考案し,これを PIM
上に実装し効率の評価を行なう.その第一歩として,適格文を対象とした一般
化 LR 解析法を,不適格文解析が行なえるように拡張する.我々は,不適格文
を一般的に「文中に n 箇所の,終端記号(単語)あるいは非終端記号(句)レベ
ルの,脱落,挿入,および置換誤りを含んだ文」として捉える.現段階では
UNIX 上でProlog を用いた,不適格文を解析する LR 構文解析システムを開発
している.適格文に対して可能な解析結果(構文木)を出力し,不適格文に対
して文内の可能な不適格性の場所や種類を同定し,不適格性を含んだ可能な構
文木の出力が可能となっている.
- 2)現在までの主な成果
-
現在までの主な成果は,UNIX 上における Prolog 版の LR 構文解
析システムの実現である.本システムの不適格性(エラー)同定メ
カニズムは,構文木内のエラー発生箇所に依存した形で構文解析木
を出力する.
解析において,文の左から右へと
解析を進めていき,解析が失敗した場合は,その位置より左の方に
存在している不適格性位置の同定を行なう.同定の順番は (1) 解
析が失敗している箇所,(2) まだ部分解析木が生成されていない箇
所,(3) 二つの部分解析木が隣接している箇所,(4) 部分解析木内
の箇所である.また複数のエラーを持つ文の解析に対しては,
エラーが存在する位置は解析が失敗した位置から前回失敗した位置
までの間に存在する,というヒューリスティックを用いる.尚,入
力文に対しては Eric により開発された Tagger と連結することに
より,約 9 万単語の辞書から決定的に解析文の各単語に語彙カテ
ゴリを付加している.本システムはその語彙カテゴリと予め用意し
た英語の文法に基づいて,実際の会話(具体的には ATR の収録会
話データ 300 文をランダムに抜き取り)の解析可能な範囲
(covarage) と適合率・再現率などの統計解析結果を調べる.
- 3)今後の研究概要:
- 不適格文解析では複数の解析結果(構文木)が得られる場合が多い.
その中で,人間にとって明らかに間違っている解釈や,間違ってい
ないが不自然な解釈などがある.そこで,どの解釈が尤もらしいも
のかを決定する必要がある.今後,解析候補の順番づけメカニズム
を考案する.また,UNIX 上に開発した頑健な LR 構文解析システム
の知見を生かし,KL1 言語を用いた PIM 上における並列 LR 構文
解析システムをインプリメントする.特に一般化 LR 法のスタック管理の並列
化による種々の負荷分散方式を考察し,PIM による評価実験を行な
い解析速度に関する台数効果を調べる.
- 4)今年度目標成果(イメージ)
- 今年度は不適格文解析における誤り箇所と誤り種別を同定し,その
誤りを修正する頑健な並列一般化 LR 構文解析システムを実現する.
システムの既存文法に適合する文のみならず,実際のテキストや対
話文によく現れる様々な非文法的表現や誤りを含む文(不適格文)
をも処理できる効率的な並列処理システムの実現を目指す.また,構文的
スコアづけ手法を考案することにより,複数の解析結果から尤もら
しさ(解釈の良さ)の度合を表現し,PIM 上における実験評価を行
ない本システムの有効性を確認する.
www-admin@icot.or.jp