研究の背景
自然言語で書かれた大量の文書が電子化され、様々な場所に分散して蓄積し ている。その検索法が最近注目されているが、これは情報ネットワークの普及 とともにこれからますます重要になると考えられる。これらの文書は生のまま の文書ではなく、自然言語処理を行ないわかち書きをしたりキーワードを抽出 するなど、さまざまな加工を施して蓄積しておくことが望ましい。一方、自然 言語処理技術そのものに対しても、加工された大量の文書をコーパスとして蓄 積しておき、そこから自然言語処理に有用な様々な知識を抽出し、自然言語処 理の精度を向上させる技術が最近注目されている。統計情報などはそのような 知識の一つである。最近広範囲の分野の自然言語を対象とした形態素解析シス テムが再び脚光を浴びているのは、このような理由による。広範囲の分野の自 然言語を対象とした自然言語解析ツールを開発し、これを一般に公開すること は、先に述べた応用だけでなく、音声認識や対話システムの核としても利用可 能であるので重要である。そのためには、大規模の辞書が必要になるが、これ は最近電子化辞書研究所の開発したEDR辞書が利用可能な状況にある。
研究の目的
EDR辞書を用いた日本語解析ツールの設計と開発を行なうことを第一の目的 とする。それにより大規模の辞書(EDR辞書)を用いた実用規模の自然言語処理 応用システムの核を構築する。日本電子化辞書研究所では自然言語処理を行な うためのEDR辞書を開発している。これはこれまで一般に公開されているわが 国最大の本格的な電子化辞書であるが、これを用いた日本語解析のツールを開 発することにより、日本語EDR辞書を用いたさまざまな自然言語処理応用シス テムの構築が可能となる。
本研究で開発する日本語解析ツールは、日本語の形態素解析と構文解析を行 なうシステムであるとする。これは、両者に対する既存の優れた解析アルゴリ ズムがあるからである。これまでの形態素解析と構文解析とは別個のフェーズ で行なわれていた。まず日本語の形態素解析を行ない辞書引き可能な形態素を 抽出してから構文解析を行なうものであった。形態素解析では形態素の接続可 能性を調べるための接続表を使い構文解析では文脈自由文法をベースにした解 析アルゴリズムを使うので、接続表に含まれる制約と、文脈文脈自由文法で表 される制約とを同時に用いることが不可能であった。
これら二つの制約を同時に利用可能であれば、無駄な解析結果を早期に避け 効率の良い解析を行なうことができる。我々はそのための新しいアルゴリズム を開発している。それによれば、これら二つの制約を同時に用いて形態素解析 と構文解析とを同時に行なうことができる。二つの解析過程を完全に融合する ことが可能になるのである。本研究の第二の目的は、この新しいアルゴリズム を組み込むことにより、そのの有効性を大規模な日本語辞書(EDR辞書)を用い て実証することである。
第三の目的は日本語文法の設計を容易にするユーザインタフェースを日本語 解析システムに開発することである。
本研究で開発する日本語解析ツールでは並列処理に適した解析アルゴリズム を開発する。このアルゴリズムのKLICでの記述可能性を検討することも本研究 の第四の目的である。