next up previous
Next: 論文リスト Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要 Previous: 研究成果

予備実験

 

本研究は予備実験として、ATRの英語対話コーパスから取り出した300文(平均 文長 7.5)を対象として実験を行なった。用いられた文法では、規則数は 260、 終端記号の数は 34、非終端記号の数は 34、規則の平均規則長は 5 である。 実験の結果を表 --1--2 に示す。各項目は以 下の意味を持つ。

通常解析で成功
誤りの修正処理が一度も起動されずに解析結果を得た文。 すなわち、文法に適合した入力文である。
非文解析で成功
誤りの修正処理を起動したことによって解析結果を得た 文。
解析失敗
誤りの修正処理を起動しても解析結果を得ることができなかっ た文。
候補を得た
何らかの解析結果を得た文の数。
正解を含む
得られた解析結果のうち、その中に用意した正解の解析木が 含まれている文の数。
不正解
得られた解析結果に、用意した正解の構文木が含まれなかった文 の数。
全文との比
候補を得た文数のコーパス全体の文数との比。

  
表 --1: 入力文全体に対する結果

  
表 --2: 候補を出力できた文の内訳

通常解析で成功した文と非文解析で成功した文を総合すると、カバレッジにつ いては 90.7% (表--1)、候補を得た文に対する正解率は 92.3%、入力文全体に対する正解率は 83.7% (表--2) という 結果を得た。

また、解析候補の絞り込みの評価について実験を行なった。実験では、スコア リングによって順位付けがされた解析候補から上位 50 個を取り出し、その中 に正解が含まれている文の数によって評価した。また、スコアリングの各パラ メータの設定であるが、最初の段階では妥当な決定方法がないので、まずは以 下のように各パラメータ均等に値を設定した。

--3 に結果を示す。ここでの各項目の意味は以下の通りで ある。

解を得た
非文解析で解析結果が得られた文の数。
非文正解
非文解析で正解を含んでいた文の数。
絞り込み
スコアリングで絞り込まれた候補に正解が含まれていた文の 数。

  
表 --3: スコアリングによる絞り込みの結果

非文解析で正解を含んでいた文のうち、半数以上が上位 50 個以内に正解が含 まれない、という結果となってしまったが、その理由はパラメータの設定の問 題であると考えられる。今回のパラメータ設定では、重み・誤りの種類の基本 値に対してそれぞれ均等な値を与えたため、スコアが上位の解析候補が横並び となってしまい、正解の解析候補が上位に上がってこなかったことが原因であ る。したがって、何らかの方法で適切なパラメータを決定する必要がある。現 在考慮しているパラメータの決定方法は以下である。

  1. 正解の解析木から各誤りの種類の出現回数を抽出し、それを基に誤りの種 類の基本値 Ssubst, Sextra, Somit を決定する。
  2. 誤りの種類のパラメータを用いて、絞り込み後の結果に正解が含まれる比 率が高くなるように重みパラメータ α を学習する。


next up previous
Next: 論文リスト Up: 「一般化LR法を用いた頑健な並列構文解析に関する研究」に関する成果概要 Previous: 研究成果



www-admin@icot.or.jp