平成8年度 委託研究ソフトウェアの提案

(13) 単一化に基づく日英文法の開発および言語知識評価支援システム

研究代表者:松本裕治 教授
      奈良先端科学技術大学院大学 情報科学研究科




[目次]

  1. 研究体制
  2. 2年目の研究内容
  3. 想定されるソフトウェア成果

[研究体制]

       氏名         所属
研究代表者 松本 裕治  奈良先端科学技術大学院大学情報科学研究科教授
研究協力者 宇津呂武仁  奈良先端科学技術大学院大学情報科学研究科助手
研究協力者 宮田 高志  奈良先端科学技術大学院大学情報科学研究科助手
研究協力者 今一 修   奈良先端科学技術大学院大学情報科学研究科博士後期課程2年
研究協力者 大石 亨   奈良先端科学技術大学院大学情報科学研究科博士後期課程2年
研究協力者 中山 拓也  奈良先端科学技術大学院大学情報科学研究科博士後期課程1年


[2年目の研究内容]

引続き英語および日本語文法の開発を行なうが,英語の文法の開発には, Pollard & Sag: Head-Driven Phrase Structure Grammar, The University Chicago Press, (1994) に基づいて開発を行なう.本年度は,主に日本語文法 についてのHPSGに基づく文法の開発とその前処理として統計モデルに基づく曖 昧性解消の処理機能を開発する.日本語HPSG文法については最新のHPSGを反映 した文法の記述はどこでも行なわれていないので,基本的な単文と助動詞など の処理を中心に行ない,拡張性を重視した開発を行なう.また,日英両文法に 対して,新聞記事など現実的な文に対する解析実験を行なうための語彙記述変 換ツールを整備する.本研究は,松本を中心とし,今一,大石がそれぞれ英語 文法,日本語文法の開発を行なう.

文法・語彙知識の評価のための言語解析システムの開発については,優先度規 則の記述方法および統合のためのパラメータの記述法の設計と実現を行なう. また,現存するいくつかの語彙知識(EDR辞書,分類語彙表,等)からHPSGの 語彙記述への変換ツールの開発を行なう.また,解析の途中経過や優先規則が どのように解析の曖昧性の減少に役立っているかを観察するためのユーザイン ターフェースの開発を行ない,統合的な評価を行なうことのできるシステムを 完成させる.本システムの開発は,松本,宇津呂,宮田,中山が担当する.


[想定されるソフトウェア成果]

(1)作成されるソフトウェア名称

HPSG-E : HPSG (Head-driven Phrase Structure Grammar) の英語版
HPSG-J : HPSG (Head-driven Phrase Structure Grammar) の日本語版
SAX+ : 構文解析および語彙知識,文法規則の評価システム

(2)そのソフトウェアの機能/役割/特徴

作成する予定のHPSG-EおよびHPSG-Jは,自然言語のための単一化文法として代 表的であり,かつ理論的に最も整備の進んだHPSG(Head-driven Phrase Structure Grammar)を実用的な文法として整理した英語および日本語文法であ る.HPSGは高い記述力を持つが,本研究ではこれを記述法の限定された文法と してとらえるのではなく,他の様々な自然言語のための文法を変換して利用す るための汎用の文法記述言語としてみる.よって,現存する様々な文法体系お よび語彙記述(格フレーム等)から我々のHPSGへの変換ツール群を用意する.こ れによりこれまで蓄積された多くの言語資源を統合的な解析システムの中で利 用できる環境を実現する.さらに個々の(語彙的,文法的)知識の評価を行な うことのできる環境を提供する.

SAX+は,上記の環境を実現するための言語解析統合システムおよび語彙知識と 文法規則の評価システムを含む.様々な言語知識を変換して統合的に利用する 環境を提供することにより,言語の曖昧性を解消するための優先規則等の記述 や学習を容易に行なえる環境を提供する.文法および語彙規則とともに表現さ れた優先順位付けのパラメータの重みなどを自由に設定する機能をもち,それ ぞれの知識が解析結果に及ぼす影響を客観的に観測可能な環境を提供する.こ のような機能によって,語彙および文法開発者および利用者のための支援環境 と開発された語彙知識,文法知識の評価環境を実現する.

(3)ソフトウェアの構成/構造

HPSG-EおよびHPSG-Jは,英語および日本語のための基本的な文法であり,代表 的な語の詳細な記述をもった辞書,および,既存の辞書からHPSG語彙記述への 変換ツールを含む.

SAX+システムは,文法規則,語彙規則(辞書),知識の優先規則の3つを入力と して与えると.解析の途中結果および最終結果が入力文中のどの部分にどのよ うな部分解析結果が現れたかを2次元マトリックス状のテーブルによって表示 され,その内部データ構造などを利用者が自由に確認することができる.解析 の途中結果を表示するシステムは昨年度に基本的な機能は完成しているが,今 回は解析結果の優先順位の情報を表示したり優先規則のパラメータを動的に変 化させるなどの機能を追加する.

(4)参考とされたICOTフリーソフトウェアとの関連

HPSG-Jは,ICOTフリーソフトウェアに含まれているJPSGの拡張であ る.最近のHPSGの発展結果を採り入れつつ,適用範囲が広く拡張性に優れた文 法記述を目指す.HPSG-Eは同様の考えに基づいた英語の文法である.

SAX+は,ICOTのLTB(Language Tool Box)に含まれる構文解析システムSAXを拡 張し,UNIXマシン上で開発したシステムである.また,辞書やテキストデータ あるいはそこから得られた様々な言語資源を柔軟に利用するためのカスタマイ ズ機能をもつ.

(5)使用予定言語および動作環境/必要とされるソフトウェア・パッケージ/ポータビリティなど

開発言語はSICStus Prolog,gccおよびTcl/Tkである.SUN SPARCstation上で の開発を予定しているが,基本的に上記システムが動く環境での動作には問題 なく,ポータビリティに優れていると考える.

(6)ソフトウェアの予想サイズ(新規作成分の行数)

・基本的な文法規則記述は,日英それぞれ500行程度.
・実験のために試作する語彙記述および優先規則は日英それぞれ100語,行数では3000行程度.
・SAX+システムのための追加部分は,1000行程度.
・文法および語彙記述変換の支援ツールは,1000行程度.

(7)ソフトウェアの利用形態

大きく3種類の利用者を想定している.1つは本研究で開発した文法および言 語解析システムをそのまま利用し,解析結果を各自の研究目的に利用する利用 者である.このような利用に耐えられるためには,ある程度のカバレージと精 度をもつ文法および語彙記述を提供することが重要である.語彙記述を何万も の語に対して網羅的に記述することは困難であるが,既存の辞書からの情報を 変換して情報が得られる範囲での語彙記述を得られる変換ツールを用意するこ とによって,情報が不足している語に対してもある程度の解析能力を提供でき るようにする予定である.2つ目は,文法および語彙知識の開発を本研究の成 果に基づいて行ない,本研究の成果である日英文法や語彙規則の拡張を行なう 利用者である.このような利用者の成果を蓄積することによってより完全な文 法・語彙知識を共有していく環境作りも重要な課題である.3つ目の利用形態 は,本システムが提供する環境を利用することにより,自分の研究成果として 得られた文法・語彙知識を評価する利用者である.様々な利用者の利用形態を 把握することにより,システム全体の拡張や文法・語彙知識の変換ツールの整 備を行なうことが重要である.

(8)添付予定資料

日英文法の仕様説明書,および,言語解析システムの利用者および開発者向け マニュアルを用意する予定である.


www-admin@icot.or.jp