平成8年度 委託研究ソフトウェアの提案

(27) 制限言語モデルとそれに基づく高度言語処理システムの構築

研究代表者:野村浩郷 教授
      九州工業大学情報工学部知能情報工学科




[目次]

  1. 研究の背景
  2. 研究の目的
  3. 研究内容
  4. 研究体制/研究方法
  5. 想定されるソフトウェア成果

[研究の背景]

情報化社会の発展により,様々な分野で高度な自然言語処理を望む声が増大し ている.しかし,現在の自然言語処理技術は,分野を限定しない一般の自然言 語文に対して,正確かつ高度な解析を実現できるまでにはまだ成熟していない. とはいえ,対象分野を限定し,その分野における文法的特徴や語彙の制約など の言語的特徴を活用するならば,高度な自然言語処理システムの実現は現在の 技術でも十分に可能であると思える.

ある特定分野の言語的特徴を活用する場合,それを制限言語モデルとして構築 し,そのモデルに基づく自然言語処理システムを構築するのが効果的であると 考えられる.しかしながら,制限言語モデル構築の方法論は,まだ確立されて いるとは言えない.よって,高度な自然言語処理システム実現のためには,制 限言語モデル構築技術の確立が急務であると言える.

制限言語モデル構築技術確立のための研究対象として適切なものとして,法律 文がある.法律文は,解釈の際になるべく曖昧性が生じないように言語表現に 強い制約を持っており,法的概念と言語表現との間に密接な対応が存在する. 現代社会における法律の役割は重要性を増す一方であり,これにともなって法 律の問題を取り扱う法律エキスパートシステムの必要性も増している.法律エ キスパートシステムには,法律コンサルタントシステム,法律文作成・改訂支 援システム,法律学CAIシステムなどがあり,これらのシステムを構築するた めに,法律文言語処理を行なう高度な自然言語処理システムの開発への要請は 極めて強い.

このような法律文を題材として,制限言語モデル構築と,その制限言語モデル に基づく応用システムの開発とを行うことにより,制限言語モデル構築技術の 確立や,深い意味処理を行う高度な言語処理システムの実現が期待できる.


[研究の目的]

本研究の目的は,次の二つの側面を持つ.

一つは,制限言語モデルによる高度な自然言語処理技術の開発である.研究の 背景でも述べたように,分野を限定するならば,現在の自然言語処理技術でも 高度な自然言語処理システムの実現は十分に可能であると考える.本研究では, そのような限定された分野の研究対象例として,言語的特徴の強い法律文を取 り上げる.法律文を制限言語として捉え,「法律文制限言語モデル」と,法律 文の言語構造と意味構造とを統合して表現する枠組である「素性論理構造表現 形式」とを提案する.そして,その言語的特徴を活用した自然言語解析および 自然言語生成の方式を提案し,それにより「法的文章処理システム」の実験シ ステムを作成して機能を検証する.

もう一は,法律文言語処理システム開発の過程を通して得られる経験に基づき, 制限言語モデルに基づく高度な自然言語処理システム開発を支援する「支援環 境」の構築である.法律文に限らず,限定された分野における高度な自然言語 処理システムの実現のためには,対象領域の言語的特徴を調査・分析し,それ を辞書や文法の中に適切に組み入れ,活用する必要がある.この作業には非常 に多くの労力を必要とする.そのような作業を適切に支援する環境があれば, 効率の良い開発作業が行え,労力の軽減に役立つ.ひいては,高度な自然言語 処理システムの実現を早めることができる.

制限言語モデル構築法や素性論理構造表現形式など,本研究の遂行上で得られ る知見は,法律文のみならず,他の分野,ひいては一般の自然言語文に対する 高度な自然言語処理システム開発にも非常に有用なものとなると考える.


[研究内容]

本研究では,高度な自然言語処理システム実現のための制限言語モデルとそれ に基づく自然言語処理システムの構築技術の確立を目指す.対象分野としては 法律文を選ぶ.従来は,「国際物品売買契約に関する国連条約(統一売買法)」 を主たる対象として,その言語的特徴の調査・分析を行ってきた.本研究では, 対象とする法律文の範囲を「民法」などにも広げ, 以下に述べる項目などにつ いての研究により「法律文制限言語モデル」の精密化・拡充とそれに基づく 「法的文章処理システム」の実験システムを作成して機能を検証する.

・文末表現に基づく文機能の分類
法律文がいかなる法的規定を行っているかは,その法律文の文末表現に特徴 的にあらわれる.提案者らはこの点に着目し,従来の研究で,文のタイプ分 類に関する文機能モデルを構築してきた.本研究では,対象とする法律文の 調査・分析をさらに進め,文機能モデルの精密化を行う.

・要件効果構造の分類
法律文は法的な要件と法的な効果の言語表現に対応する文構造を持っている. また,要件効果構造は,複数の文にまたがることもある.対象とする法律文 の要件効果構造の調査・分析を進め,要件効果構造モデルの精密化を行う.

・法令用語と法的概念に基づく相当語化
法律文においては,その記述を明確にするために,一般の用法よりも強い制 約を加えられた法令用語が数多く存在する.従来からの研究で法令用語の調 査・分析を進めてきたが,本研究でもその分析をさらに進める.また,従来 からの分析で,一般的に言われる単語ではないが,何らかの法的概念単位と なるような語の連なりが存在することが明らかになり,法律文中に現れるそ のような語の連なりを調査・分析し,「相当語」として定義してきた.本研 究では,法令用語と相当語に対し,再分析と整理を行う.

・法令用語・相当語シソーラスの作成
法律文の意味内容を解釈するためには,法律文に含まれる法令用語・相当語 の意味的位置づけを明確化する必要がある.本研究では,EDR概念辞書を 用い,法令用語・相当語のシソーラスを作成する.従来の研究で,試験的に 千数百語の相当語に対してシソーラスを作成しており,本研究では,相当語 の再分析に合わせて,法令用語も加えてたシソーラスの拡大・精密化を進め るとともに,制限言語モデルにおける相当語シソーラス構築技術の確立を目 指す.

・並列構造のモデル化
法律文では,法的事象に関する規定を一文で記述するため,非常に入り組ん だ並列構造を持つことが多い.このような構造は一般に解析時の曖昧性が非 常に大きくなり,正確な解析に困難が伴うものである.法律文の場合,曖昧 性が少ければならないというその性質上,並列構造標識の用法も含め,並列 構造に言語的制約が存在する.しかし,法律に関する知識がなければ,解釈 が非常に困難であるものも多い.提案者らは,従来の研究で法律文における 並列構造のモデル化を行っているが,本研究においては,その精密化とより 広範囲の制約の取り込みを行う.

・素性論理構造表現形式
素性論理構造表現形式とは,言語構造の部分を素性構造表現として表現し, 意味構造の部分を論理構造表現として表現する統合的な表現枠組みである. 現在の素性構造表現は,依存構造をベースとし,単文については特に格構造 に基づいている.また,論理構造表現は,暫定的に,中立的な論理式表現を 採用している.これらの表現形式はまだ初歩的であり,本研究において拡充 を行う.

・ 法律文解析システム
上記の法津文制限言語モデルに基づく法律文解析システムの実験システムを 作成する.

・法律文生成システム
法律文に基づく推論は,その論理構造表現と内容的に等価な論理式表現によ り行われ,推論結果もそのような論理式表現で与えられると仮定する.この とき,推論結果の提示を論理式表現のままで行ったのでは見づらい.そこで 本研究では,論理構造表現からの法律文生成システムの作成を行う.従来の 研究では実験的に 50 程度の論理構造表現からの法律文生成を行っているが, まだまだ初歩的状態であり,本研究で拡張する.

・文脈処理の実現
法律は各条文が独立に法的規定を行っている訳ではない.法律中の条文の並 びとしての文脈によって,法的規定を行っている.そこで本研究では,法律 条文間の関係を的確に扱うことが出来る文脈処理の実現を検討する.それに より法律から法的判断の手順を適切に生成できるようにし,また,法的判断 の結果を適切な文章で表現できるようにするための基礎とする.

本研究では,関連する研究として,さらに,下記の研究支援環境システムにつ いても検討する.これらは研究の過程における作業を効率化するためのもので ある.

・法的文章タギングシステム
言語分析を行うための基礎データとして,文に各種の言語的なタグを付与し たタグドテキストコーパスを整備する必要がある.しかし,そのための作業 は,専門的な知識を必要とするばかりでなく膨大な作業が必要である.した がって,そのような作業を支援するための支援環境として,法的文章タギン グシステムが不可欠である.提案者は,すでにそのような支援環境の基本シ ステムを作成しているが,本研究では,それらを拡充する.

・制限言語モデル構築支援環境
制限言語モデルの構築は対象分野のタグドテキストコーパスに対する言語現 象の分析・整理により行われるが,このときそれを使う自然言語処理により 検証を行いその結果をフィードバックするとう過程を繰り返す必要がある. このような作業は多大なる労力が要求されるため,作業の効率化は必須であ る.本研究で構築する支援環境は,様々なツールの起動,解析実施や範囲指 定による部分構造解析・提示など,GUIを駆使して支援することにより, 効率良く快適な開発環境とすることを目指す.制限言語モデルの文法設計の 段階では,形態素解析や構文解析を行うシステムが必要となるが,本研究で は独自の解析システムを特に開発することは行わずJUMANやSAXなどの既存シ ステムを利用し,それとのインターフェースモジュールを支援環境に組み込 むこととする.


[研究体制/研究方法]

(1) 研究体制
        氏名      所属
研究代表者 野村 浩郷  九州工業大学情報工学部知能情報工学科教授
研究協力者 中村 貞吾  九州工業大学情報工学部知能情報工学科講師
研究協力者 永井 秀利  九州工業大学情報工学部知能情報工学科助手
研究協力者 一柳 剛   九州工業大学大学院情報工学研究科博士前期課程2年
研究協力者 緒方 賢史  九州工業大学大学院情報工学研究科博士前期課程2年
研究協力者 藤吉 誠   九州工業大学大学院情報工学研究科博士前期課程2年
研究協力者 井出 裕二  九州工業大学大学院情報工学研究科博士前期課程1年
研究協力者 平松 寛司  九州工業大学大学院情報工学研究科博士前期課程1年

(2) 研究の方法

研究の内容で述べた研究対象を,適宜,研究協力者とともに役割分担を行いつ つ研究を進める.研究従事者間の討論だけでなく,外部の法律専門家の意見に も耳を傾けることで,より正確な法律文理解に基づく法律文制限言語モデル, 素性論理構造表現の構築を行う.そして,これらに基づく法律文処理の実験シ ステムを作成し,そこから得られる知見により,モデルの精密化,拡張を進め ると同時に,一般の利用に供することができるシステムに仕上げていく.


[想定されるソフトウェア成果]

(1)作成されるソフトウェア名称

LIPS

(2)そのソフトウェアの機能/役割/特徴

LIPS (Legal Information Processing System) は,法律文制限言語の文 法や辞書,法律文制限言語を利用した処理システム,そして,制限言語の開発 支援環境の集合体である.制限言語開発支援環境は,対象を法律文に限るもの ではない.ある特定分野の高度な自然言語処理システム実現のために,その分 野の制限言語を開発したいというような場合に,一般的に利用することができ る.

法律文制限言語モデルとその応用システムは,支援環境を利用して作成された サンプルであると同時に,実用的な法律文言語情報,および法律文解析システ ムや法律文生成システムの原形でもある.これらは,法律研究者や学習者など がツールとして利用することができる.無論,支援環境に含まれるような法律 文に特化しないツールもこの目的に利用可能である.また,本ソフトウェアに 含まれる以外の高度な法律文言語処理システムを実現しようとする際に,言語 データとして利用することもできる.

制限言語モデル構築の作業は,対象分野のテキストデータの調査・分析による 言語的特徴の基礎データ獲得作業と,獲得した言語的特徴を反映した文法の構 築作業とに大別することができる.本支援環境はその両方の作業を効率良く行 うための環境を提供する.

基礎データ獲得作業においては,テキストデータ調査のためにさまざまなツー ルが作成・駆使される.文法設計作業においては,解析試験と文法修正の試行 錯誤が必要となる.文法設計の過程で得られた知見は,言語的特徴分析のため の基礎データ獲得作業にフィードバックされるし,その結果として新たに得ら れた性質が文法の改訂を促す.このような作業においては,通常,同様の処理 を何度も反復して行う必要がある.これを人手で行うのは非効率的であり,制 限言語構築のためのスムーズな思考の展開の妨げにもなる.本支援環境は,こ のような作業を支援し,非能率性を解消するための統合環境である.さまざま なツールの起動や連係を支援することにより,制限言語開発者による制限言語 設計への思考の集中を助けることができる.本支援環境では,GUIを採用す ることにより,制限言語開発作業を視覚的に理解しやすくする.操作もできる 限り直感的に行えることを目指し,制限言語開発作業の流れをスムーズにする ことができる.

(3)ソフトウェアの構成/構造

本ソフトウェアは,法律文制限言語モデルに関する言語データ,応用システム としての法律文解析生成システム,制限言語モデル開発のための支援環境など の様々なモジュールの集合体から構成される.

法律文制限言語とその応用システムは,支援環境を利用して作成されたサンプ ルであると同時に,実用的な法律文言語情報,および法律文解析システムや法 律文生成システムでもある.これらは,法律研究者や学習者などがツールとし て利用することができる.無論,支援環境に含まれるような法律文に特化しな いツールもこの目的に利用可能である.また,本ソフトウェアに含まれる以外 の高度な法律文言語処理システムを実現しようとする際に,言語データとして 利用することもできる.

制限言語モデル開発支援環境は,その全体のコントロールを司るプラットホー ムを中心として,各支援処理を実現する実体である処理モジュールや,処理モ ジュールの入出力を司るインターフェースモジュール,さらに,複数処理の連 係を規定する連係制御モジュールが組み合わせられる.各処理モジュールは, できる限り独立性が強いものとし,プログラムの再利用性を向上させる.また, インターフェースモジュールを独立させていることにより,必要に応じて処理 モジュールを差し替えることを容易にする.この構造は,支援環境上での制限 言語文法の改良と同時に,その制限言語文法に基づく独立した解析システムの 改良も,利用者が特に意識することなく実施できることを意味する.

(4)参考とされたICOTフリーソフトウェアとの関連

制限言語開発支援システムは,文法開発支援環境(LINGUIST)の考えも参考に して,その拡張ないし代用として用いることができるものである.支援システ ムの処理モジュールには,IFSの中から有用なものを選択して利用する計画 である.解析システムについても独自の開発は行わず,SAXなどを処理モジュー ルとして活用する予定である.

(5)使用予定言語および動作環境/必要とされるソフトウェア・パッケージ/ポータビリティなど

GUIによる統合環境は,Tcl/Tkにより構築する予定である.各処理は, このプラットホームから起動されるため,各処理に適するプログラム言語を選 択する.具体的にはC,Prolog,CESP等である.基本的にGNUや ICOTのフリーソフトウェアのみで動作させる予定であるため,それらのフ リーソフトウェアが稼働する環境であれば,利用可能である.

(6)ソフトウェアの予想サイズ(新規作成分の行数)

数千行程度を予定.

(7)ソフトウェアの利用形態

本ソフトウェアは,下記に示す法律文制限言語モデルの言語データ,その応用 システムとしての法律文解析生成システム,および制限言語モデル開発のため の支援環境とからなる.

・法律文制限言語モデルの言語データ
法律文制限言語モデルの言語データは,制限言語モデル構築支援環境により 開発されたサンプルであると同時に実用的な法律文の言語情報でもある.こ れらは,高度な法律文言語処理システム作成において実際に利用可能である し,法律研究者や学習者,さらには何らかの事情で法的判断に関わらざるを 得なくなった法律の非専門家の支援としても利用することができる.

・法律文解析生成システム
法律文解析生成システムはサンプルであると同時に実際に使用できる応用シ ステムである.これらは,高度な法律文言語処理システム実現において実際 に利用可能であるし,法律研究者や学習者,さらには何らかの事情で法的判 断に関わらざるを得なくなった法律の非専門家の支援としても利用すること ができる.

・制限言語モデル構築支援環境
制限言語モデル開発支援環境は,ある特定の分野における高度な言語処理シ ステムの実現のために,言語的特徴の調査・分析や制限言語構築を行いたい 研究者・開発者の支援として,主に利用される.GUIを利用した直感的操 作体系により,研究・開発者の思考の流れを中断させることなく,効率良く 開発作業を行うことを助ける.

これらのソフトウェアは,言語分析などのために開発しているツールが既に 手元に存在するならば,そのツールとのインターフェースを記述することによ り,そのツール操作のソフトウェアランチャーとして,このシステムを利用す ることができる.これにより,すでに開発しているツールを無駄にすることな く,快適で作業効率の良い開発環境を実現できる.さらに,他のツールと組み 合わせて作業の効率化を図りたい場合には,組み合わせるツールとの間の連係 制御モジュールを記述することで,開発済みツールの活用をより促進すること もできる.

本ソフトウェアの支援処理を実現する各モジュールは,法律文を題材として 実際に行った制限言語モデル開発の過程において必要であった,あるいは作業 効率化のために作成されたものである.それらは独立性の高いものとしている ため,各モジュール単独でも,自然言語処理の研究や自然言語処理応用システ ムの開発において,有効に活用することが可能である.

(8)添付予定資料

法律文制限言語モデル解説書,支援環境仕様書,ユーザーズマニュアル


www-admin@icot.or.jp