平成7年度 委託研究ソフトウェアの提案

(18) EDR 辞書を用いた日本語解析ツール

研究代表者:田中 穂積 教授
      東京工業大学 大学院 情報理工学研究科




[目次]

  1. 研究の背景
  2. 研究の目的
  3. 研究の内容
  4. ソフトウェア成果


[研究の背景]

自然言語で書かれた大量の文書が電子化され,様々な場所に分散して蓄積して いる.その検索法が最近注目されているが,これは情報ネットワークの普及と ともにこれからますます重要になると考えられる.これらの文書は生のままの 文書ではなく,自然言語処理を行ないわかち書きをしたりキーワードを抽出す るなど,さまざまな加工を施して蓄積しておくことが望ましい.一方,自然言 語処理技術そのものに対しても,加工された大量の文書をコーパスとして蓄積 しておき,そこから自然言語処理に有用な様々な知識を抽出し,自然言語処理 の精度を向上させる技術が最近注目されている.統計情報などはそのような知 識の一つである.最近広範囲の分野の自然言語を対象とした形態素解析システ ムが再び脚光を浴びているのは,このような理由による.広範囲の分野の自然 言語を対象とした自然言語解析ツールを開発し,これを一般に公開することは, 先に述べた応用だけでなく,音声認識や対話システムの核としても利用可能で あるので重要である.そのためには,大規模の辞書が必要になるが,これは最 近電子化辞書研究所の開発したEDR辞書が利用可能な状況にある.

[研究の目的]

EDR辞書を用いた日本語解析ツールの設計と開発を行なうことを第一の目的と する.それにより大規模の辞書(EDR辞書)を用いた実用規模の自然言語処理応 用システムの核を構築する.日本電子化辞書研究所では自然言語処理を行なう ためのEDR辞書を開発している.これはこれまで一般に公開されているわが国 最大の本格的な電子化辞書であるが,これを用いた日本語解析のツールを開発 することにより,日本語EDR辞書を用いたさまざまな自然言語処理応用システ ムの構築が可能となる.

本研究で開発する日本語解析ツールは,日本語の形態素解析と構文解析を行な うシステムであるとする.これは,両者に対する既存の優れた解析アルゴリズ ムがあるからである.これまでの形態素解析と構文解析とは別個のフェーズで 行なわれていた.まず日本語の形態素解析を行ない辞書引き可能な形態素を抽 出してから構文解析を行なうものであった.形態素解析では形態素の接続可能 性を調べるための接続表を使い構文解析では文脈自由文法をベースにした解析 アルゴリズムを使うので,接続表に含まれる制約と,文脈文脈自由文法で表さ れる制約とを同時に用いることが不可能であった.

これら二つの制約を同時に利用可能であれば,無駄な解析結果を早期に避け効 率の良い解析を行なうことができる.我々はそのための新しいアルゴリズムを 開発している.それによれば,これら二つの制約を同時に用いて形態素解析と 構文解析とを同時に行なうことができる.二つの解析過程を完全に融合するこ とが可能になるのである.本研究の第二の目的は,この新しいアルゴリズムを 組み込むことにより,そのの有効性を大規模な日本語辞書(EDR辞書)を用いて 実証することである.

第三の目的は日本語文法の設計を容易にするユーザインタフェースを日本語解 析システムに開発することである.

本研究で開発する日本語解析ツールでは並列処理に適した解析アルゴリズムを 開発する.このアルゴリズムのKLICでの記述可能性を検討することも本研究の 第四の目的である.

[研究の内容]

まずはじめに,EDR辞書用の形態素接続表を整備する.日本語解析ツールの中 核となる解析アルゴリズムとして一般化LR法を用いる.これは構文解析用とし て開発されたアルゴリズムである.一般化LR法では文脈自由文法をプリコンパ イルしたLR表をあらかじめ抽出しておく.LR表は構文解析を行なう上で指令書 の役割を果たすものであるが,そこに含まれる制約は,文脈自由文法に含まれ るのに限られる.形態素間の接続表に関する制約は含まれない.

ところが我々は最近,LR表に形態素間の接続表に関する制約を組み込む新しい 方法を開発している.この方法によれば,LR表には文脈自由文法の制約と接続 表の制約とが同時に含まれていることになる.このLR表を用いて,一般化LR法 に基づく解析を行なえば,形態素解析と構文解析とを完全に融合することがで きる.この新しい方法によれば一般化LR法という一つの解析アルゴリズムを用 いて形態素解析と構文解析とを同時に進めることができるので効率的な解析を 行なうことができる.本研究ではこれらを組み込んだ効率の良い日本語解析用 ツールを,EDR辞書をベースに構築する.

このときの一つの問題は,一般化LR法で用いるLR表生成アルゴリズムの生成速 度が,文脈自由文法規則の数が増えるにつれて極端に遅くなることである.ち なみにATRで開発したLR表生成システムでは,三千弱の文脈自由文法規則のLR 表生成を行なうのに,20MIPS程度のワークステーション上で数日動作させても LR表の生成ができなかった.本日本語解析システムをツールとするためには, それに組み込むLR表生成プログラムが十分高速でなければならない.われわれ は,ATRのLR表生成プログラムが低速である理由を検討しており,中間段階で できるデータ構造を変えることで,十分高速なLR表生成が可能であるとの見通 しを得ている.本研究で開発する日本解析システムには,このLR表生成アルゴ リズムを組み込む.そして,LR表に形態素間の接続表の制約を組み込むアルゴ リズムを開発する.

最近LR表に接続表の制約を組み込むことで,LR表中のある指令をつぎつぎに削 除し,LR表から無用な指令を消し,LR表をコンパクトにするとともに,このLR 表を用いた解析の効率を向上させる方法を開発した.これは制約伝播法と我々 はよんでいる.制約伝播法の,LR表への組み込みアルゴリズムの,LR表生成プ ログラムへの組み込みを行なう.

一般化LR法は横型探索法をベースにしている.そのために並列計算が可能であ り,その有効性は昨年までのICOTの委託研究により明らかにされている.本研 究で開発する日本語解析システムをKLICを用いて記述することも検討する.検 討結果により,2年度に実装を行なうためにICOT委託研究への応募する.

最後に,日本語解析システムのツールとしての使用を容易にするためのユーザ インタフェースを開発する.

[ソフトウェア成果]

(1)作成されるソフトウェア名称
MSGLR-J

(2)そのソフトウェアの機能/役割/特徴

1) 日本語解析用の文法をもち,EDR辞書を用いた本格的な自然言語解析ツー ルであり,実用規模の日本語処理応用システムのコアとして利用可能な機能を 持つシステムである.

2) EDR辞書を対象にした形態素間の接続表が組み込まれているため,個 別に接続表を開発する必要がない.

3) ツールの使用を容易にするユーザインタフェース機能が付加されてい る.

4) 形態素間の接続表と文脈自由文法とが明確に分離しているため,文法 規則の拡張が容易になる.

5) 形態素解析と構文解析とを完全に融合した解析が可能な新しいアルゴ リズムが組み込まれているため,高速な解析が可能である.このアルゴリズム は形態素間の接続表の制約と文脈自由文法の制約とをLR表に事前にプリコンパ イルして組み込むため,高速な解析が可能である.

6) 一般化LR法という統一した枠組で解析を行なうことができるため,解 析ツールのソフトウヱア構成が単純である.

7) 一般化LR法では横型探索法をベースにしているため全ての解をバック トラックなしに求めることができる.

8) LR表には統計的な情報を組み込むことができるので統計情報を用いた 解析結果へのスコア付けも可能である.

9) わが国ではじめて開発された本格的な大規模電子化辞書を用いている ため,本解析ツールをベースにさまざまな実用規模の日本語処理応用システム を構築することができる.また情報検索などを容易にするために,わかち書き など文書の加工を行なうことができる.自然言語処理用に有用なタグ付きコー パスの作成にもそのまま利用可能である.



www-admin@icot.or.jp