平成８年度　委託研究ソフトウェアの提案

(25) LTB日本語文法のモデル化と新版文法規則の実装

研究代表者：佐野　洋　講師
　　　　　　東京外国語大学外国語学部

［目次］

研究の背景
研究の目的
研究内容
研究体制／研究方法
想定されるソフトウェア成果

［研究の背景］

ネットワークやハードウェアの発展に伴って開発するソフトウェアの規模が大規模化し複雑化している。加えてオープン化も進んでいる。

自然言語処理システムは、それ自身が研究対象であると同時に、アプリケーション開発においては基本コンポーネントである。自然言語処理システムの成果を広く公開しようとする時、利用者にとって使い易いシステムとは、内部仕様の透明性や解析アルゴリズムに一般性があること、辞書や文法規則を作成する時の言語分析手法に一貫性があり、データ作成の手続きが標準化されていることである。

今後、自然言語処理システムを要素技術とする様々のアプリケーションが大幅に増えるものと予想される。公開された自然言語処理システムを最大限利用することで、新規に作成するアプリケーションソフトウェアの量を減らすことができるが、再利用される自然言語処理システムの品質は保証されている必要がある。

利用者に使い易いシステムとして指摘した二点目、言語分析の一貫性とデータ作成の手続きの標準化は、自然言語処理システムが大規模化するに従ってますます重要となる。すなわち、自然言語処理システムにおける、辞書や文法規則の開発には、多くの経験によって培われたノウハウが蓄積されている。そうしたノウハウを、自然言語処理システムを利用しようとする利用者が共有できる手立てを構築することが必要である。それによって、アプリケーション開発におけるソフトウェアの生産性や信頼性を向上させることが可能になる。

現在、辞書や文法規則を作成する時の言語分析手法やデータ作成の手続きは標準化されておらず、自然言語処理システムの再利用を阻んでいる。次のような問題点をまとめることができる。

・辞書や文法規則の規模が大きくなると、利用者要求による仕様変更への対応が大変である。利用者要求とは、自然言語研究者による解析精度向上といった専門的な利用法だけでなく、非専門化による他システムへの応用、教育目的の利用など様々である。　

・規模の拡大と利用技術(情報化機器やソフトウェア)の急速な進展によって、辞書や文法規則の保守や管理、新しいプラットホームへの移植が難しくなっているため、新規のアプリケーション開発における再利用が進まない。

・辞書や文法規則のシステム依存性が高いために、分散開発に利用できない。

このように、自然言語処理システムにも利用者ニーズに適う仕様と構成が要求される。

［研究の目的］

本研究の目的は、自然言語処理システムを構成する辞書や文法規則のデータ類が、アプリケーション開発に適用する際に再利用を促進するよう、データ作成の手続きの方法論を十分に詳細化しノウハウの一般化を行なうことで、自然言語処理システムを利用しようとするユーザーが共有できる方法論を構築することである。すなわちソフトウェアとしての文法規則の維持、管理や保守を容易にすることを目的し、結果として公開ソフトウェアのユーザビリティの向上を目指す。

本研究では、オブジェクト指向方法論を用いて、複数の専門家による日本語文法のモデル化を行ない文法モデルを作成する。分析対象の言語現象を一つのドメインとし、そのドメインに対応する文法規則をオブジェクトと考え、オブジェクト(文法規則)の均質性を確保する。こうして属人性を排して作成した文法モデルを使い、ICOTフリーソフトウェアのLTB(Language Tool Box)として提供されている文法規則の再編と追加修正を行なうと同時に、辞書や文法規則記述の方法論を確立する。それを基に規則の利用マニュアル作成する。文法規則を利用するアプリケーション開発におけるソフトウェアの生産性や信頼性を向上させることが目的である。

公開ソフトウェアの開発者が作成した文法規則を、利用者がいかに効率良く理解しアプリケーションソフトウェアに組み込めるかは、文法規則の再利用性に依存している。利用できる文法規則部分と修正や追加する部分が明確にわかれていてそれが正しく認識できなければならない。

現在、教育の場では、マルチメディア技術に関心が高まり、音声、画像教育と共に自然言語処理技術の教育が必至となりつつある。これまで、いわゆる専門研究者を対象とした自然言語処理の要素技術ソフトウェアは、数多く公開されているが、直截に教育で使用できるシステムが極めて少ないのが現状である。

そこで、本研究では、自然言語処理システムの辞書や文法規則の再利用目的を、自然言語処理技術の教育利用とし、教育の場における利用者ニーズによる仕様変更を検証例として、上述の方法で作成した方法論に沿って教育の場における利用者ニーズを分析し、ICOT公開ソフトウェアのLTBで提供されている文法規則を再編、修正と追加を行なうことで実証を試みる。

［研究内容］

研究内容を遂行順序に従って次にあげる。

(A)文法のモデル化

東京外国語大学・外国語学部・日本語課程で行なわれている日本語教育の教材を基に日本語文法のモデル化を行なう。複数の日本語課程教官によって文法規則を作成することで、文法のモデル化の際の属人性を排除し、結果としての文法規則の均質性を実現する。モデル化を基に辞書や文法規則記述の方法論を確立する。

(B)LTB日本語文法規則の再編

上記の文法モデルを使ってLTB日本語文法規則を再編する。再編と同時に、日本語学の成果を採り入れた規則の修正と不足の規則の追加を行なう。日本語教育の教材を参考に機械処理用の文法規則の利用者マニュアルを整備する。

(C)利用者ニーズに基づく仕様変更

再編した文法規則の再利用性を検証する。利用者ニーズに基づく文法規則の仕様変更要求を調べ、その変更要求に沿って文法規則の変更手順を記録する。仕様変更要求は、(1)工学部における学部学生用の自然言語演習に必要とされる文法規則の作成、(2)留学生のための日本語教育の演習に必要とされる文法規則の作成とする。
(1)は山梨大学・工学部で実施される自然言語処理演習の課題を要求仕様として規則の変更手順を記録し、変更に伴う利用者の負荷を、原仕様の理解度、変更規則数などを使い計る。(2)は、東京外国語大学・留学生センターで作成された留学生向け日本語教育教材の分析から、初等の日本語教育に必要な文法規則の選択し、(1)と同様に、変更に伴う利用者の負荷を計る。
ここでは、利用する目的の対象者が違うことによって必要とされる文法規則が違っている点に着目し、そのニーズを分析した上で規則に反映させる手続きが、どのくらい効率的であるかを調べる。利用者要求に沿った変更によって、新規に作成する文法規則数、変更した文法規則数等を計測することで、(A)で提案する文法モデルの再利用性を検証する。

(D)評価と文法モデル(文法規則)の改良

検証結果を評価し、(1)文法規則の利用単位、(2)規則をどのように体系化するのか、(3)利用者要求に該当する文法規則の検索手段や検索の方法をどのようにするのか、(4)文法規則の変更手続き、あるいは新規作成手続きをどのように定式化するのかを検討する。
検討結果を(A),(B)で作成した文法と文法規則に反映する。これによって、再編されたLTB日本語文法は、利用者が規則を理解することが容易になるだけでなく、利用者による仕様変更(規則の改変、修正、追加など)に柔軟に対応できるソフトウェアとなる。また、文法規則を利用しようとするアプリケーションにおける再利用性が向上する。

［研究体制／研究方法］

(1) 研究体制
　　　　　　　氏名　　　　　　　所属
研究代表者　佐野　洋　　　東京外国語大学外国語学部専任講師
研究協力者　風間伸次郎　　東京外国語大学外国語学部専任講師
研究協力者　福本　文代　　山梨大学工学部助手
研究協力者　松井　理直　　大阪大学言語文化部助手
研究協力者　花園　悟　　　東京外国語大学大学院地域文化研究科修士２年
研究協力者　上野　誠司　　大阪大学大学院言語文化研究科博士３年
研究協力者　板東美智子　　大阪大学大学院言語文化研究科博士２年

(2) 研究の方法

　(a)文法のモデル化

東京外国語大学・外国語学部・日本語課程における日本語教育教材で扱われている「言語知識」を、東京外国語大学と大阪大学の担当教官への聞き取りを通じて文法知識として獲得する。得られた文法知識を、オブジェクト指向方法論を用いて、複数の専門化による日本語文法のモデル化を行ない文法モデルを作成する。分析対象の言語現象を一つのドメインとし、そのドメインに対応する文法規則をオブジェクトと考え、オブジェクト(文法規則)の均質性を確保する。辞書や文法規則記述の方法論を確立する。

　(b)LTB日本語文法規則の再編

LTB日本語文法規則の扱う言語現象とそれに対応する実規則を (a)で調べた文法知識に対応させて規則の充実度を調べる。不足の規則は追加し、分析の誤っている規則は修正する。分析対象の言語現象への対応関係が誤っている規則は再配置する。日本語課程の教官の協力を得て、この再編過程においてLTB日本語文法規則を基本規則、応用規則、拡張規則に分類する。

　(c)利用者ニーズに基づく仕様変更を通じての検証

再編した文法規則の再利用性を検証するため、(1)工学部における学部学生用の自然言語演習に必要とされる文法規則の作成、(2)留学生のための日本語教育の演習に必要とされる文法規則の作成を、再編した規則を基に行なう。

(1)は山梨大学・工学部で実施される自然言語処理演習の課題を要求仕様として規則の変更手順を記録する、(2)は、東京外国語大学・留学生センターで作成された留学生向け日本語教育教材の分析から、初等の日本語教育に必要な文法規則の選択し、(1)と同様に、変更に伴う利用者の負荷を計る。

　(d)評価と文法モデル(文法規則)の改良

検証結果を評価し、その結果を(a),(b)で作成した文法と文法規則に反映する。

　(a)でまとめた文法のモデルは、LTB日本語文法規則・文法モデル説明書として文書化する。(b)については、言語現象を示す評価例文を添付し、文法規則マニュアルとしてまとめる。再編した文法規則は、langLAB(東京工業大学)もしくはSAX(奈良先端科学技術大学院大学)を使って完動状態にする。この規則は新版LTB日本語文法規則として公開する。文法規則利用説明書 (LangLAB/SAX用)を作成する。(c)の結果は、教育教材への応用事例集(自然言語処理演習用教材と留学生用日本語教材への応用)として資料とする。(d)の検討結果を方法論としてまとめ、再利用手引きとして文章化する。

［想定されるソフトウェア成果］

(1)作成されるソフトウェア名称

　LTB日本語文法規則

(2)そのソフトウェアの機能／役割／特徴

(i)ソフトウェアの機能
日本語解析のための文法規則。基本的な機能は、現版のLTB日本語文法規則と同じで、その解析性能とユーザビリティを向上させたもの。

(ii)ソフトウェアの役割
自然言語処理システムにおける基本データ (文法規則)

(iii)ソフトウェアの特徴
現版のLTB日本語文法規則に比べ、以下の点が優れる。

: (a)文法のモデル化で属人性を排除しているので、開発者と利用者の観点の相違を生じさせない、; (b)文法規則が言語現象に対応して体系化されている、; (c)利用者要求に応じた文法規則の検索手段や検索の方法が用意されている、; (d)文法規則の変更手続き、あるいは新規作成手続きが定式化されている、; (e)利用者マニュアルが充実している。

上記の特徴によって、本研究によって再編されたLTB日本語文法は、利用者が規則を理解することが容易になるだけでなく、利用者による仕様変更 (規則の改変、修正、追加など) に柔軟に対応できるソフトウェアとなる。さらに、文法規則を利用しようとするアプリケーションにおける再利用性が向上する。

(3)ソフトウェアの構成／構造

基本的には、現版LTB日本語文法と同じ構成とし、文法規則、LangLAB,SAXをそれぞれ利用する場合のインストールソフトウェア、LTB日本語文法規則・文法モデル説明書、文法規則マニュアル(評価例文付き)等のドキュメント類が添付される。ドキュメント類は、HTMLで記述することによりWebでの情報提供も可能とする。

(4)参考とされたICOTフリーソフトウェアとの関連

LTB日本語文法規則を再編し追加と修正を行ない、LTB日本語文法規則の次版を作成する。利用者マニュアルの充実を図り、次の文書を新規に作成し、文法規則に添付する。

　LTB日本語文法規則・文法モデル説明書

・文法規則マニュアル(評価例文付き)

・文法規則利用説明書(LangLAB/SAX用)

・教育教材への応用事例集 (自然言語処理演習用教材と留学生用日本語教材への応用)

・再利用手引き(適用事例とその説明)

(5)使用予定言語および動作環境／必要とされるソフトウェア・パッケージ／ポータビリティなど

LTB日本語文法規則は、LTB/Linguist をはじめ、LangLAB (東工大)、SAX (奈良先端大)上で動作するように作成されている。本研究で再編と追加修正を行なう文法規則も同様の仕様とし、動作チェックを行なうことはもちろん、利用説明書(LangLAB/SAX用)を作成し、広くワークステーションで活用できるようにする。

(6)ソフトウェアの予想サイズ（新規作成分の行数）

　　現在のLTB日本語文法規則の2倍の規則規模 (予測)

(7)ソフトウェアの利用形態
応用事例
　　ネット上の文法規則の利用: (B)のフェイズで作成した規則をそのまま応用して、WebサーバーのCGI機能を使って、ネットブラウザを通じて文法規則を利用するサービスが可能である。ネットブラウジングはパソコンでも可能であるから、利用者数が飛躍的に伸びる。
　　教育用システムの作成: (C)のフェイズで作成した教育教材への応用事例集を基にすれば、比較的簡単に教育システムの構築が可能である。例えば、ネットワーク上で利用できるようにするために、GUI部分をHTML/VRMLを用いて教材を作成し、CGIをベースに、LangLAB(東京工業大学)もしくはSAX (奈良先端科学技術大学院大学)を使い文法規則を利用する。ネットワーク上での工学部・学部学生を対象にした自然言語処理演習の教育と、外国語学部・留学生向け日本語教育を可能とするシステムができる。
　前述のシステムと同様に、ネットブラウジングはパソコンでも可能であるから、利用者数が飛躍的に伸びる。特に後者は、教材テキスト部分を各国語対応にすることで、各国の日本語学習者に対してサービスが可能となる。このようなシステムを置くWebサイトは、国内サービスだけのシステムに比べ、そのヒット数は大幅に伸びるものと見込まれる。
利用者へのセールスポイント: 再利用手引き(適用事例とその説明)は、文法規則の効果的な利用を促進するものである。属人性を排した文法モデルの提示は、機械処理による文法規則の評価を客観的にし、利用者間の規則の利用ノウハウの共有を可能にする。
　公開されている文法規則の有効な再利用の手順を明らかにし、文法規則記述の方法論を確立することで、規則記述の過程の可視化(ドキュメントとして提供)を行なう。したがって、利用者のアプリケーションへの自然言語処理システムの組み込みを容易にし、全体システムの開発にかかる、開発コストを低減することができる。

(8)添付予定資料

LTB日本語文法規則・文法モデル説明書

・文法規則マニュアル (評価例文付き)

・文法規則利用説明書 (LangLAB/SAX用)

・教育教材への応用事例集 (自然言語処理演習用教材と留学生用日本語教材への応用)

・再利用手引き (適用事例とその説明)

www-admin@icot.or.jp