平成8年度 委託研究ソフトウェアの提案 |
文法・語彙知識の評価のための言語解析システムの開発については,優先度規 則の記述方法および統合のためのパラメータの記述法の設計と実現を行なう. また,現存するいくつかの語彙知識(EDR辞書,分類語彙表,等)からHPSGの 語彙記述への変換ツールの開発を行なう.また,解析の途中経過や優先規則が どのように解析の曖昧性の減少に役立っているかを観察するためのユーザイン ターフェースの開発を行ない,統合的な評価を行なうことのできるシステムを 完成させる.本システムの開発は,松本,宇津呂,宮田,中山が担当する.
作成する予定のHPSG-EおよびHPSG-Jは,自然言語のための単一化文法として代 表的であり,かつ理論的に最も整備の進んだHPSG(Head-driven Phrase Structure Grammar)を実用的な文法として整理した英語および日本語文法であ る.HPSGは高い記述力を持つが,本研究ではこれを記述法の限定された文法と してとらえるのではなく,他の様々な自然言語のための文法を変換して利用す るための汎用の文法記述言語としてみる.よって,現存する様々な文法体系お よび語彙記述(格フレーム等)から我々のHPSGへの変換ツール群を用意する.こ れによりこれまで蓄積された多くの言語資源を統合的な解析システムの中で利 用できる環境を実現する.さらに個々の(語彙的,文法的)知識の評価を行な うことのできる環境を提供する.
SAX+は,上記の環境を実現するための言語解析統合システムおよび語彙知識と 文法規則の評価システムを含む.様々な言語知識を変換して統合的に利用する 環境を提供することにより,言語の曖昧性を解消するための優先規則等の記述 や学習を容易に行なえる環境を提供する.文法および語彙規則とともに表現さ れた優先順位付けのパラメータの重みなどを自由に設定する機能をもち,それ ぞれの知識が解析結果に及ぼす影響を客観的に観測可能な環境を提供する.こ のような機能によって,語彙および文法開発者および利用者のための支援環境 と開発された語彙知識,文法知識の評価環境を実現する.
HPSG-EおよびHPSG-Jは,英語および日本語のための基本的な文法であり,代表 的な語の詳細な記述をもった辞書,および,既存の辞書からHPSG語彙記述への 変換ツールを含む.
SAX+システムは,文法規則,語彙規則(辞書),知識の優先規則の3つを入力と して与えると.解析の途中結果および最終結果が入力文中のどの部分にどのよ うな部分解析結果が現れたかを2次元マトリックス状のテーブルによって表示 され,その内部データ構造などを利用者が自由に確認することができる.解析 の途中結果を表示するシステムは昨年度に基本的な機能は完成しているが,今 回は解析結果の優先順位の情報を表示したり優先規則のパラメータを動的に変 化させるなどの機能を追加する.
HPSG-Jは,ICOTフリーソフトウェアに含まれているJPSGの拡張であ る.最近のHPSGの発展結果を採り入れつつ,適用範囲が広く拡張性に優れた文 法記述を目指す.HPSG-Eは同様の考えに基づいた英語の文法である.
SAX+は,ICOTのLTB(Language Tool Box)に含まれる構文解析システムSAXを拡 張し,UNIXマシン上で開発したシステムである.また,辞書やテキストデータ あるいはそこから得られた様々な言語資源を柔軟に利用するためのカスタマイ ズ機能をもつ.
開発言語はSICStus Prolog,gccおよびTcl/Tkである.SUN SPARCstation上で の開発を予定しているが,基本的に上記システムが動く環境での動作には問題 なく,ポータビリティに優れていると考える.
・基本的な文法規則記述は,日英それぞれ500行程度.
・実験のために試作する語彙記述および優先規則は日英それぞれ100語,行数では3000行程度.
・SAX+システムのための追加部分は,1000行程度.
・文法および語彙記述変換の支援ツールは,1000行程度.
大きく3種類の利用者を想定している.1つは本研究で開発した文法および言 語解析システムをそのまま利用し,解析結果を各自の研究目的に利用する利用 者である.このような利用に耐えられるためには,ある程度のカバレージと精 度をもつ文法および語彙記述を提供することが重要である.語彙記述を何万も の語に対して網羅的に記述することは困難であるが,既存の辞書からの情報を 変換して情報が得られる範囲での語彙記述を得られる変換ツールを用意するこ とによって,情報が不足している語に対してもある程度の解析能力を提供でき るようにする予定である.2つ目は,文法および語彙知識の開発を本研究の成 果に基づいて行ない,本研究の成果である日英文法や語彙規則の拡張を行なう 利用者である.このような利用者の成果を蓄積することによってより完全な文 法・語彙知識を共有していく環境作りも重要な課題である.3つ目の利用形態 は,本システムが提供する環境を利用することにより,自分の研究成果として 得られた文法・語彙知識を評価する利用者である.様々な利用者の利用形態を 把握することにより,システム全体の拡張や文法・語彙知識の変換ツールの整 備を行なうことが重要である.
日英文法の仕様説明書,および,言語解析システムの利用者および開発者向け マニュアルを用意する予定である.
www-admin@icot.or.jp