平成8年度 委託研究ソフトウェアの提案 |
ネットワークやハードウェアの発展に伴って開発するソフトウェアの規模が大規模化し複雑化している。加えてオープン化も進んでいる。
自然言語処理システムは、それ自身が研究対象であると同時に、アプリケーション開発においては基本コンポーネントである。自然言語処理システムの成果を広く公開しようとする時、利用者にとって使い易いシステムとは、内部仕様の透明性や解析アルゴリズムに一般性があること、辞書や文法規則を作成する時の言語分析手法に一貫性があり、データ作成の手続きが標準化されていることである。
今後、自然言語処理システムを要素技術とする様々のアプリケーションが大幅に増えるものと予想される。公開された自然言語処理システムを最大限利用することで、新規に作成するアプリケーションソフトウェアの量を減らすことができるが、再利用される自然言語処理システムの品質は保証されている必要がある。
利用者に使い易いシステムとして指摘した二点目、言語分析の一貫性とデータ作成の手続きの標準化は、自然言語処理システムが大規模化するに従ってますます重要となる。すなわち、自然言語処理システムにおける、辞書や文法規則の開発には、多くの経験によって培われたノウハウが蓄積されている。そうしたノウハウを、自然言語処理システムを利用しようとする利用者が共有できる手立てを構築することが必要である。それによって、アプリケーション開発におけるソフトウェアの生産性や信頼性を向上させることが可能になる。
現在、辞書や文法規則を作成する時の言語分析手法やデータ作成の手続きは標準化されておらず、自然言語処理システムの再利用を阻んでいる。次のような問題点をまとめることができる。
・辞書や文法規則の規模が大きくなると、利用者要求による仕様変更への対応が大変である。利用者要求とは、自然言語研究者による解析精度向上といった専門的な利用法だけでなく、非専門化による他システムへの応用、教育目的の利用など様々である。
・規模の拡大と利用技術(情報化機器やソフトウェア)の急速な進展によって、辞書や文法規則の保守や管理、新しいプラットホームへの移植が難しくなっているため、新規のアプリケーション開発における再利用が進まない。
・辞書や文法規則のシステム依存性が高いために、分散開発に利用できない。
本研究の目的は、自然言語処理システムを構成する辞書や文法規則のデータ類が、アプリケーション開発に適用する際に再利用を促進するよう、データ作成の手続きの方法論を十分に詳細化しノウハウの一般化を行なうことで、自然言語処理システムを利用しようとするユーザーが共有できる方法論を構築することである。すなわちソフトウェアとしての文法規則の維持、管理や保守を容易にすることを目的し、結果として公開ソフトウェアのユーザビリティの向上を目指す。
本研究では、オブジェクト指向方法論を用いて、複数の専門家による日本語文法のモデル化を行ない文法モデルを作成する。分析対象の言語現象を一つのドメインとし、そのドメインに対応する文法規則をオブジェクトと考え、オブジェクト(文法規則)の均質性を確保する。こうして属人性を排して作成した文法モデルを使い、ICOTフリーソフトウェアのLTB(Language Tool Box)として提供されている文法規則の再編と追加修正を行なうと同時に、辞書や文法規則記述の方法論を確立する。それを基に規則の利用マニュアル作成する。文法規則を利用するアプリケーション開発におけるソフトウェアの生産性や信頼性を向上させることが目的である。
公開ソフトウェアの開発者が作成した文法規則を、利用者がいかに効率良く理解しアプリケーションソフトウェアに組み込めるかは、文法規則の再利用性に依存している。利用できる文法規則部分と修正や追加する部分が明確にわかれていてそれが正しく認識できなければならない。
現在、教育の場では、マルチメディア技術に関心が高まり、音声、画像教育と共に自然言語処理技術の教育が必至となりつつある。これまで、いわゆる専門研究者を対象とした自然言語処理の要素技術ソフトウェアは、数多く公開されているが、直截に教育で使用できるシステムが極めて少ないのが現状である。
そこで、本研究では、自然言語処理システムの辞書や文法規則の再利用目的を、自然言語処理技術の教育利用とし、教育の場における利用者ニーズによる仕様変更を検証例として、上述の方法で作成した方法論に沿って教育の場における利用者ニーズを分析し、ICOT公開ソフトウェアのLTBで提供されている文法規則を再編、修正と追加を行なうことで実証を試みる。
研究内容を遂行順序に従って次にあげる。
(A)文法のモデル化
東京外国語大学・外国語学部・日本語課程で行なわれている日本語教育の教材を基に日本語文法のモデル化を行なう。複数の日本語課程教官によって文法規則を作成することで、文法のモデル化の際の属人性を排除し、結果としての文法規則の均質性を実現する。モデル化を基に辞書や文法規則記述の方法論を確立する。
(B)LTB日本語文法規則の再編
上記の文法モデルを使ってLTB日本語文法規則を再編する。再編と同時に、日本語学の成果を採り入れた規則の修正と不足の規則の追加を行なう。日本語教育の教材を参考に機械処理用の文法規則の利用者マニュアルを整備する。
(C)利用者ニーズに基づく仕様変更
再編した文法規則の再利用性を検証する。利用者ニーズに基づく文法規則の仕様変更要求を調べ、その変更要求に沿って文法規則の変更手順を記録する。仕様変更要求は、(1)工学部における学部学生用の自然言語演習に必要とされる文法規則の作成、(2)留学生のための日本語教育の演習に必要とされる文法規則の作成とする。
(1)は山梨大学・工学部で実施される自然言語処理演習の課題を要求仕様として規則の変更手順を記録し、変更に伴う利用者の負荷を、原仕様の理解度、変更規則数などを使い計る。(2)は、東京外国語大学・留学生センターで作成された留学生向け日本語教育教材の分析から、初等の日本語教育に必要な文法規則の選択し、(1)と同様に、変更に伴う利用者の負荷を計る。
ここでは、利用する目的の対象者が違うことによって必要とされる文法規則が違っている点に着目し、そのニーズを分析した上で規則に反映させる手続きが、どのくらい効率的であるかを調べる。利用者要求に沿った変更によって、新規に作成する文法規則数、変更した文法規則数等を計測することで、(A)で提案する文法モデルの再利用性を検証する。
(D)評価と文法モデル(文法規則)の改良
検証結果を評価し、(1)文法規則の利用単位、(2)規則をどのように体系化するのか、(3)利用者要求に該当する文法規則の検索手段や検索の方法をどのようにするのか、(4)文法規則の変更手続き、あるいは新規作成手続きをどのように定式化するのかを検討する。
検討結果を(A),(B)で作成した文法と文法規則に反映する。これによって、再編されたLTB日本語文法は、利用者が規則を理解することが容易になるだけでなく、利用者による仕様変更(規則の改変、修正、追加など)に柔軟に対応できるソフトウェアとなる。また、文法規則を利用しようとするアプリケーションにおける再利用性が向上する。
LTB日本語文法規則
(i)ソフトウェアの機能
日本語解析のための文法規則。基本的な機能は、現版のLTB日本語文法規則と同じで、その解析性能とユーザビリティを向上させたもの。
(ii)ソフトウェアの役割
自然言語処理システムにおける基本データ (文法規則)
(iii)ソフトウェアの特徴
現版のLTB日本語文法規則に比べ、以下の点が優れる。
基本的には、現版LTB日本語文法と同じ構成とし、文法規則、LangLAB,SAXをそれぞれ利用する場合のインストールソフトウェア、LTB日本語文法規則・文法モデル説明書、文法規則マニュアル(評価例文付き)等のドキュメント類が添付される。ドキュメント類は、HTMLで記述することによりWebでの情報提供も可能とする。
LTB日本語文法規則を再編し追加と修正を行ない、LTB日本語文法規則の次版を作成する。利用者マニュアルの充実を図り、次の文書を新規に作成し、文法規則に添付する。
現在のLTB日本語文法規則の2倍の規則規模 (予測)
応用事例
ネット上の文法規則の利用
www-admin@icot.or.jp