平成8年度 委託研究ソフトウェアの提案

(12) 一般化 LR 法を用いた頑健な並列構文解析に関する研究

研究代表者:國藤 進 教授
      北陸先端科学技術大学院大学情報科学研究科




[目次]

  1. 研究体制
  2. 2年目の研究内容
  3. 想定されるソフトウェア成果

[研究体制]

       氏 名              所属
研究代表者 國藤 進          北陸先端科学技術大学院大学教授
研究協力者 奥村 学          北陸先端科学技術大学院大学助教授
研究協力者 タナラック・ティラマヌコン 北陸先端科学技術大学院大学助手
研究協力者 今井 宏樹         東京工業大学 大学院(D1)


[2年目の研究内容]

当初は,初年度に並列で頑健な一般化 LR パーザを PIM 上に開発し,次年度 に PIM 上で開発したパーザをUNIX上に移植する予定であった.しかし,実際 には,初年度に UNIX 上で動作する prolog 版の 頑健な一般化 LR 構文解析 システムを実現した.また,当初次年度に予定していた,Brill により開発さ れた品詞付け器 Tagger との連結も完了している.そこで,今年度ではまず, 当初の予定通り,初年度に作成したパーザへ導入した構文的スコア付け手法に 加え,EDR共起辞書,概念辞書を用いた,意味的スコア付け手法を合わせて実 装し,初年度のシステムと比較し,意味的スコア付け手法の有用性を調べる予 定である.

次に,現在の UNIX 上で開発したシステムの知見を生かして,不適格文解析の 並列アルゴリズムを考案する.その際,並列化の効率に影響を与える負荷分散 方式について検討し,特に動的負荷分散,静的負荷分散,要求駆動型動的負荷 分散などの長短を考察する.また,平成6年度に開発したチャート法に基づく 並列非文構文解析システムの実現から得られた技法を本システムの構築に適用 して見る.また,KL1 言語を用いた並列一般化 LR構文解析システムを PIM 上 に実装する.特に一般化 LR 法のスタック管理の並列化による種々の負荷分散 方式を考察し,PIM による評価実験を行ない解析速度に関する台数効果を調べ る.

また,本研究にあたって,北陸先端科学技術大学院大学 情報科学研究科 自然 言語処理学講座・奥村研究室と東京工業大学 情報理工学研究科 計算工学専攻・ 田中研究室で定期的に研究討論を行ないながら研究を進める予定である.


[想定されるソフトウェア成果]

(1)作成されるソフトウェア名称
頑健な並列構文解析プログラム(R-LRPar)

(2)そのソフトウェアの機能/役割/特徴

1) 本ソフトウェアは,予め与えられた文脈自由文法のもとで,入力文(自然言 語)に対する構文解析結果を出力する.この解析結果が,それに続く意味解析, 文脈解析,推論などの処理プロセスの入力となる.また,一般化 LR 法に基づ いた構文解析アルゴリズムを採用しているので,高速な解析が実現できる.

2) 本ソフトウェアは,これまでの構文解析ツールのように,システムの文法 に適合する文だけでなく,不適格文をも受理できる頑健な構文解析ツールであ る.その際,文法に適合する文に対しては,不必要な誤り解析は行なわないの で,無用な効率の低下を引き起こさない.

3) 並列アルゴリズムの効率を決定するのは負荷分散方式である.負荷分散方 式としては,動的負荷分散方式,静的負荷分散方式,要求駆動による動的負荷 分散方式などが考えられる.これらの負荷分散方式にはそれぞれ利点,欠点が あるので,本ソフトウェアでは,これら負荷分散方式の性能評価のためにユー ザが自由に負荷分散方式を選択し実行できるような機能を用意する.

4) 従来の構文解析プログラムは,解析結果が複数得られる場合,それらをた だ任意の順にすべて出力するものが多い.本ソフトウェアでは,解析結果にス コアをつけ,スコアの低い結果を妥当でないものとして排除し,妥当な結果の みを,その妥当性の順に出力する機能を提供する.スコア付けの手法としては, 誤りの位置,誤りのタイプ,誤りの数,そして,誤りの(入力文中での)範囲な どの構文的要素に基づくものおよび,EDR共起辞書,概念辞書を用いた意味的 要素に基づくものを予め用意し提供するが,ユーザがスコア付けの手法を自由 に設定する機能を追加することも検討する.

5) 本構文解析プログラムには,与えられた文法や入力文のデバッグを支援す るのに必要不可欠な解析過程のトレーサが用意されている.

(3)ソフトウェアの構成/構造

ソフトウェアは,PIM 上で動作するものと,UNIX 上で動作するものの2つに 分けられる.PIM 上で動作するプログラムは,一般化 LR 法に基づく頑健な並 列パーザの主プログラム,文法を LR 表へ変換するトランスレータ,解析過程 をトレースするトレーサ,負荷分散を制御するプログラムから構成される.

UNIX 上で動作するプログラムは,一般化 LR 法に基づく頑健な並列パーザの 主プログラム,既存の計算機用辞書や形態素解析器などとのインタフェースプ ログラム,文法を LR 表へ変換するトランスレータ,解析過程をトレースする トレーサ,解析時間,解析結果の構文木をウィンドウへ表示するツリーブラウ ザから構成される.

(4)参考とされたICOTフリーソフトウェアとの関連

並列構文解析プログラム:PAX,構文解析処理プログラム:SAXと同様,構文解析 ツールであるが,これらとは異なり,システムの文法に適合する文だけでなく, 不適格文をも受理できる頑健な構文解析ツールである.

また平成6年度まで開発したICOTフリーソフトウェア「チャート法に基づく並 列非文構文解析: PAROCHART」を用いて本システム(LR 法に基づく並列頑健構 文解析)と比較する予定である.

(5)使用予定言語および動作環境/必要とされるソフトウェア・パッ ケージ/ポータビリティなど

PIM 上で動作するプログラムは KL1 言語を用いて作成し PIMOS 環境で動作す る.一方,UNIX 上で動作するプログラムは,KLIC 言語,C 言語,Perl 言語, Tcl/tk などを用いて作成する.したがって,Tcl/tk, などのソフトウェア・ パッケージを必要とする.

(6)ソフトウェアの予想サイズ(新規作成分の行数)
ソフトウェアのサイズは 5,000-8,000 行程度と予想される.

(7)ソフトウェアの利用形態

本ソフトウェアは,自然言語処理研究者一般に幅広く利用されることを想定す る.本ソフトウェアは,多くの自然言語処理システムにとって中核となる構文 解析ツールであり,さまざまな自然言語処理システムの開発時に,その部分モ ジュールとして利用できる.特に,近年研究が活発な対話を処理する場合には, 本ソフトウェアは有用であると考える.また,長文を入力とする場合には,逐 次マシンでは解析できない,あるいは解析時間が非常にかかる可能性もあるが, そのような場合には,PIM 上の本ソフトウェアで解析時間の短縮ができる.

本ソフトウェアは,モジュール化し各部分をできるだけ独立に設計しているた め,すべての機能が必要でない場合や,実行環境が完備していない場合には, ソフトウェア全体をインストールすることなく,必要,あるいは可能な部分だ けを使用すれば良い.

本ソフトウェアは,自然言語の入力文を前処理した結果得られる品詞列を入力 とし動作する.出力した解析結果が,それに続く意味解析,文脈解析,推論な どの処理プロセスの入力となる.ユーザは,予め用意した文法をLR 表にコン パイルしておく必要がある.また,ユーザは,本ソフトウェア起動時に,負荷 分散方式や,解析結果のスコアづけ手法を選択する必要がある.

(8)添付予定資料

ソフトウェア仕様書やマニュアルなどは PIM 用と UNIX 用に分けて作成する予定である.また,電子化マニュアルも合わせて整備する予定である.


www-admin@icot.or.jp