Next: 論文リスト
Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要
Previous: 研究成果
本研究は予備実験として、ATRの英語対話コーパスから取り出した300文(平均
文長 7.5)を対象として実験を行なった。用いられた文法では、規則数は 260、
終端記号の数は 34、非終端記号の数は 34、規則の平均規則長は 5 である。
実験の結果を表 --1、--2 に示す。各項目は以
下の意味を持つ。
- 通常解析で成功
- 誤りの修正処理が一度も起動されずに解析結果を得た文。
すなわち、文法に適合した入力文である。
- 非文解析で成功
- 誤りの修正処理を起動したことによって解析結果を得た
文。
- 解析失敗
- 誤りの修正処理を起動しても解析結果を得ることができなかっ
た文。
- 候補を得た
- 何らかの解析結果を得た文の数。
- 正解を含む
- 得られた解析結果のうち、その中に用意した正解の解析木が
含まれている文の数。
- 不正解
- 得られた解析結果に、用意した正解の構文木が含まれなかった文
の数。
- 全文との比
- 候補を得た文数のコーパス全体の文数との比。
表 --1: 入力文全体に対する結果
表 --2: 候補を出力できた文の内訳
通常解析で成功した文と非文解析で成功した文を総合すると、カバレッジにつ
いては 90.7% (表--1)、候補を得た文に対する正解率は
92.3%、入力文全体に対する正解率は 83.7% (表--2) という
結果を得た。
また、解析候補の絞り込みの評価について実験を行なった。実験では、スコア
リングによって順位付けがされた解析候補から上位 50 個を取り出し、その中
に正解が含まれている文の数によって評価した。また、スコアリングの各パラ
メータの設定であるが、最初の段階では妥当な決定方法がないので、まずは以
下のように各パラメータ均等に値を設定した。
- 位置と種類のスコアの重み: α= 0.5
- 各誤りの種類のスコアの基本値: S subst = S extra = S omit = 1
表 --3 に結果を示す。ここでの各項目の意味は以下の通りで
ある。
- 解を得た
- 非文解析で解析結果が得られた文の数。
- 非文正解
- 非文解析で正解を含んでいた文の数。
- 絞り込み
- スコアリングで絞り込まれた候補に正解が含まれていた文の
数。
表 --3: スコアリングによる絞り込みの結果
非文解析で正解を含んでいた文のうち、半数以上が上位 50 個以内に正解が含
まれない、という結果となってしまったが、その理由はパラメータの設定の問
題であると考えられる。今回のパラメータ設定では、重み・誤りの種類の基本
値に対してそれぞれ均等な値を与えたため、スコアが上位の解析候補が横並び
となってしまい、正解の解析候補が上位に上がってこなかったことが原因であ
る。したがって、何らかの方法で適切なパラメータを決定する必要がある。現
在考慮しているパラメータの決定方法は以下である。
- 正解の解析木から各誤りの種類の出現回数を抽出し、それを基に誤りの種
類の基本値 Ssubst, Sextra, Somit を決定する。
-
誤りの種類のパラメータを用いて、絞り込み後の結果に正解が含まれる比
率が高くなるように重みパラメータ α を学習する。
Next: 論文リスト
Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要
Previous: 研究成果
www-admin@icot.or.jp