自然言語処理のための様々な解析方法や文法,辞書に関する記述および解析の 手法が提案されており,理論的な整備も進んでいる.それぞれの研究者および 研究機関が様々な文法体系に従って文法の開発を行なっているが,研究者が共 有して蓄積的に利用し発展させることができるような具体的な文法は多くは存 在しない.また,開発された文法を動作させるための解析システムあるいは解 析環境を共有することも現状ではあまり進んでいない.
一方,近年大量の電子化された言語データの入手が可能になったことを反映し て,文法や辞書に関する知識を言語データから自動もしくは半自動的に抽出す る研究が行なわれ始めている.しかし,抽出された知識を評価するための客観 的な基準を設けることは難しい.特に抽出された知識を既存の他の知識と統合 することによって,総合的な枠組の中で評価するための基盤作りはまったく進 んでいないと言ってよい.技術の進展のためにはこのような評価のための基盤 作りが重要である.
本研究の目的は,自然言語処理のための基本的な言語資源(文法,辞書)および 解析環境の開発と共有化を実現することにある.そのために,理論的な文法体 系として最も洗練されているHPSG(Head-driven Phrase Structure Grammar)を ベースにし,適用範囲の広さと拡張性を考慮した日本語および英語の基本文法 の開発を行なう.HPSGなどの単一化文法の特徴は文法の記述とそれに基づく文 解析処理の手続きが完全に分離されていることである.文法規則を宣言的に記 述することができるので,それぞれの規則の意味が明確である.また多くの文 法的な規則が個々の文法規則ではなく,文法規則全体に対してなりたつ原則と して記述されることや,個々の語に関連する規則性は語彙のレベルに記述され ることから,具体的な処理手法には関心のない言語学者にとっても理解しやす い.本研究の目的の一つは,ある程度の広い適用範囲をもつ文法をこのような 宣言的な体系の上で記述し,様々な研究者が文法を開発するための蓄積性の高 い共有化文法を構築することは重要であり,それを実現する環境を開発する.
また,自然言語解析システムの性能に影響を与えるのは主に語に記述された文 法的な知識および解釈に影響する構文的意味的な優先性に関する知識である. このような知識は言語の語彙の量が膨大であること,また,分野によって語の 使われ方や意味が異なることから,短期間に完全なものを構築することは不可 能である.今後は,言語の具体的な用例などをもとにこのような言語知識を抽 出する研究が重要であり,こうして得られた知識の精度を客観的に評価する枠 組やシステムの存在が重要である.自動抽出された言語知識の評価に関する研 究はまだ始まったばかりで,総合的な評価を行なうことのできるシステムや方 法論は存在しない.本研究で開発するシステムは,このような評価のための環 境を提供する.