研究の背景と目的

Next: 研究の内容 Up: 「EDR辞書を用いた日本語解析ツール」に関する成果概要 Previous: 「EDR辞書を用いた日本語解析ツール」に関する成果概要

研究の背景と目的

研究の背景

自然言語で書かれた大量の文書が電子化され、様々な場所に分散して蓄積している。その検索法が最近注目されているが、これは情報ネットワークの普及とともにこれからますます重要になると考えられる。これらの文書は生のままの文書ではなく、自然言語処理を行ないわかち書きをしたりキーワードを抽出するなど、さまざまな加工を施して蓄積しておくことが望ましい。一方、自然言語処理技術そのものに対しても、加工された大量の文書をコーパスとして蓄積しておき、そこから自然言語処理に有用な様々な知識を抽出し、自然言語処理の精度を向上させる技術が最近注目されている。統計情報などはそのような知識の一つである。最近広範囲の分野の自然言語を対象とした形態素解析システムが再び脚光を浴びているのは、このような理由による。広範囲の分野の自然言語を対象とした自然言語解析ツールを開発し、これを一般に公開することは、先に述べた応用だけでなく、音声認識や対話システムの核としても利用可能であるので重要である。そのためには、大規模の辞書が必要になるが、これは最近電子化辞書研究所の開発したEDR辞書が利用可能な状況にある。

研究の目的

EDR辞書を用いた日本語解析ツールの設計と開発を行なうことを第一の目的とする。それにより大規模の辞書(EDR辞書)を用いた実用規模の自然言語処理応用システムの核を構築する。日本電子化辞書研究所では自然言語処理を行なうためのEDR辞書を開発している。これはこれまで一般に公開されているわが国最大の本格的な電子化辞書であるが、これを用いた日本語解析のツールを開発することにより、日本語EDR辞書を用いたさまざまな自然言語処理応用システムの構築が可能となる。

本研究で開発する日本語解析ツールは、日本語の形態素解析と構文解析を行なうシステムであるとする。これは、両者に対する既存の優れた解析アルゴリズムがあるからである。これまでの形態素解析と構文解析とは別個のフェーズで行なわれていた。まず日本語の形態素解析を行ない辞書引き可能な形態素を抽出してから構文解析を行なうものであった。形態素解析では形態素の接続可能性を調べるための接続表を使い構文解析では文脈自由文法をベースにした解析アルゴリズムを使うので、接続表に含まれる制約と、文脈文脈自由文法で表される制約とを同時に用いることが不可能であった。

これら二つの制約を同時に利用可能であれば、無駄な解析結果を早期に避け効率の良い解析を行なうことができる。我々はそのための新しいアルゴリズムを開発している。それによれば、これら二つの制約を同時に用いて形態素解析と構文解析とを同時に行なうことができる。二つの解析過程を完全に融合することが可能になるのである。本研究の第二の目的は、この新しいアルゴリズムを組み込むことにより、そのの有効性を大規模な日本語辞書(EDR辞書)を用いて実証することである。

第三の目的は日本語文法の設計を容易にするユーザインタフェースを日本語解析システムに開発することである。

本研究で開発する日本語解析ツールでは並列処理に適した解析アルゴリズムを開発する。このアルゴリズムのKLICでの記述可能性を検討することも本研究の第四の目的である。

www-admin@icot.or.jp