予備実験

Next: 論文リスト Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要 Previous: 研究成果

予備実験

本研究は予備実験として、ATRの英語対話コーパスから取り出した300文(平均文長 7.5)を対象として実験を行なった。用いられた文法では、規則数は 260、終端記号の数は 34、非終端記号の数は 34、規則の平均規則長は 5 である。実験の結果を表 --1、--2 に示す。各項目は以下の意味を持つ。

通常解析で成功: 誤りの修正処理が一度も起動されずに解析結果を得た文。すなわち、文法に適合した入力文である。
非文解析で成功: 誤りの修正処理を起動したことによって解析結果を得た文。
解析失敗: 誤りの修正処理を起動しても解析結果を得ることができなかった文。
候補を得た: 何らかの解析結果を得た文の数。
正解を含む: 得られた解析結果のうち、その中に用意した正解の解析木が含まれている文の数。
不正解: 得られた解析結果に、用意した正解の構文木が含まれなかった文の数。
全文との比: 候補を得た文数のコーパス全体の文数との比。

表 --1: 入力文全体に対する結果

表 --2: 候補を出力できた文の内訳

通常解析で成功した文と非文解析で成功した文を総合すると、カバレッジについては 90.7% (表--1)、候補を得た文に対する正解率は 92.3%、入力文全体に対する正解率は 83.7% (表--2) という結果を得た。

また、解析候補の絞り込みの評価について実験を行なった。実験では、スコアリングによって順位付けがされた解析候補から上位 50 個を取り出し、その中に正解が含まれている文の数によって評価した。また、スコアリングの各パラメータの設定であるが、最初の段階では妥当な決定方法がないので、まずは以下のように各パラメータ均等に値を設定した。

位置と種類のスコアの重み: α＝ 0.5
各誤りの種類のスコアの基本値: S subst ＝ S extra ＝ S omit ＝１

表 --3 に結果を示す。ここでの各項目の意味は以下の通りである。

解を得た: 非文解析で解析結果が得られた文の数。
非文正解: 非文解析で正解を含んでいた文の数。
絞り込み: スコアリングで絞り込まれた候補に正解が含まれていた文の数。

表 --3: スコアリングによる絞り込みの結果

非文解析で正解を含んでいた文のうち、半数以上が上位 50 個以内に正解が含まれない、という結果となってしまったが、その理由はパラメータの設定の問題であると考えられる。今回のパラメータ設定では、重み・誤りの種類の基本値に対してそれぞれ均等な値を与えたため、スコアが上位の解析候補が横並びとなってしまい、正解の解析候補が上位に上がってこなかったことが原因である。したがって、何らかの方法で適切なパラメータを決定する必要がある。現在考慮しているパラメータの決定方法は以下である。

正解の解析木から各誤りの種類の出現回数を抽出し、それを基に誤りの種類の基本値 Ssubst, Sextra, Somit を決定する。
誤りの種類のパラメータを用いて、絞り込み後の結果に正解が含まれる比率が高くなるように重みパラメータ α を学習する。

Next: 論文リスト Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要 Previous: 研究成果

www-admin@icot.or.jp