next up previous
Up: 「EDR辞書を用いた日本語解析ツール」に関する成果概要 Previous: 研究の内容

研究の成果

研究上の成果

EDR 辞書を利用するために文法の作成を行なった。文法の作成に際しては、文 節の切れ目を意識した。これによって、解析の結果は文節単位となり、文節を 構成する形態素の情報からその文節の特徴を決めることができる。skipping parser にこの文法を利用し、文節単位の skip を行なうことで並列構造の推 定を行なう研究も行なわれている。

EDR 辞書に関しては、まだ自然言語処理の分野での実用的な利用がされていな いため、改良すべき点が多く見られた。

ソフトウェアとしての成果

日本語解析システムは大きく分けて2つの部分からなる。1つは辞書引き部、 もう1つは解析部である。

辞書引き部では、入力文の任意の位置から始まるすべての単語を EDR 辞書よ り取り出す。この際、各単語の品詞・左右連接属性のペアによって一意に特定 できる細品詞をラベルとして付与する。また、辞書に未登録の単語やひらがな 表記が辞書に含まれていない単語などについては、ある種のヒューリスティク スを用いて処理を行なう。

解析部では、辞書引き部の結果をもとに解析を行なう。解析には一般化 LR 法 を用いる。また、解析部で用いる LR テーブルは、CFG と EDR 連接規則をも とに作成する。EDR 連接規則によって制約伝播を行なうことで、無駄なエント リーを省いてある。

 
図: システム構成

現在作成中のシステムでの解析実験の結果を以下に示す。

実験に使用したのは EDR コーパスからランダムに選んだ 500 文で、文長は 12 〜 102 文字、平均 36.4 文字である。

評価の対象は、スコアづけにより1位になったものを選んだ。形態素について は区切りと品詞、文節については区切りが正しいかどうかを調べた。通常、形 態素解析システムの評価では、各形態素ごとに品詞づけの正解・不正解を調 べ、正しい品詞づけの行なわれた形態素の割合を求めるが、今回の実験では1文中の形態素また は文節すべてについて正しかった文をそれぞれ正解とした。

 
表: 実験結果

解析結果が得られなかったものは、ひらがな表記がうまく辞書引きできなかっ たもの、連接規則の誤りによるものが多かった。

また、今回の実験ではスコアが1位のもののみについて調べたため、多品詞語 を含む文では正解が得られなかったものが多いが、正解はスコアの上位に含ま れていると考えられる。

参考として、形態素解析システム JUMAN で EDR 辞書を用いて実験を行ない、 同じ方法で評価を行なったところ、文中のすべての形態素に正しく形態素を割 り当てていたものは 100 文中 30 文であった。

また、本システムで、固有名詞や辞書にないひらがな表記をいっさい含まない 文を解析したところ、形態素区切り・品詞が正しかったものが 100 文中 93 文、文節の区切りが正しかったものが 100 文中 95 文であった。

これらの結果から、EDR 辞書の整備を行なうことの重要性がわかる。

残された課題

辞書のエントリーに関しては、必要な単語の登録、および、不必要な単語の削 除または何らかの尺度での辞書の分割、などが必要となる。

連接規則に関しては、大規模なコーパスから単語の組を抽出し、それをもとに 連接規則の修正を行なっている。本システムの精度がより向上すれば、品詞の タグづけの行なわれていない文からのデータの抽出も可能になると思われる。

また、本システムでは一般化 LR 法を用いて幅優先の解析を行なっている。多品詞語 の多く含まれる文では、解析過程でのスタックの枝分かれが多くなる。KLIC を用いることで、解析を並列に行なうことについても検討したい。

自己評価

解析実験の結果はまだあまり満足できるものではないが、EDR 辞書の持つ問題 点などが明らかになった。EDR 辞書の整備を行なうことでシステムをより改善 することができると考えられる。



www-admin@icot.or.jp