平成８年度　委託研究ソフトウェアの成果ソフトウェア

(25) LTB 日本語文法のモデル化と新版文法規則の実装

研究代表者：佐野　洋　講師
　　　　　　東京外国語大学外国語学部

IFS- 汎用日本語形態素解析規則

機能概要

IFS 汎用日本語形態素解析規則は，ICOT(Institute for New Generation Computer Technology: 第五世代コンピュータ技術開発機構)フリーソフトウェアの一つである形態素解析システム LAX の解析規則部分を JUMAN エンジン用に移植し改良したもので，新たに辞書データも作成しました．

この形態素解析規則は，日本語サブセットを分節(形態素解析)する能力を持っています．この形態素解析規則が前提とする形態組織の体系は，いわゆる構文文法の品詞体系にできるだけ依存しないものであり，そのために，この規則による解析の結果は，中立性が高く言語研究から各種アプリケーションまで応用分野が広く応用できることが特徴です．

機能語(助辞と接辞)辞書が規則とともにリリースされています．いわゆる内容語については標準的な辞書を持っていません．なお，リリースソフトウェアには，IPAL 動詞辞書(IPA 特殊認可法人日本情報処理振興事業協会・技術センターからリリースされている電子化日本語辞書．動詞辞書，形容詞辞書，名詞辞書が無償で公開されている)と形容詞辞書の辞書エントリーを基に作成した規模の小さい辞書が添付されているほか，JUMAN 1.0 辞書から変換して作成した 38,000 語(名詞を除く)の辞書も添付されています．

用途

自然言語処理

IFS汎用日本語形態素解析規則は，JUMAN, Chasen, Breakfast を解析エンジンとして日本語の形態素解析を行うものです．本ソフトウェアパッケージは， JUMAN(Chasen, Breakfast) 付属のユーティリティプログラム群でコンパイルされる形式の形態素解析規則と，複数の辞書データ，そして幾つかのユーティリティープログラムから構成されています．

想定利用者

自然言語処理研究者、自然言語処理技術を応用するアプリケーション開発者

利用環境

本ソフトウェアパッケージで提供される汎用形態素規則を使用するにあたっては，以下のコンピュータとそのコンピュータで動作するソフトウェアが必要です．

コンピュータ: SunOS Release 4.x 等の UNIX OS が稼働するコンピュータ．glibc, gcc などの gnu 関係のソフトウェアがインストールされていること．
解析エンジン: JUMAN 2.0 以上, Chasen 1.0 以上が必要です．無ければ，奈良先端科学技術大学院大学，もしくは京都大学から FTP を通じて入手してください．さらに解析エンジンを含むシステムが正しくインストールされ，システムの makemat, makeint, maketree などのユーティリティプログラムが，あなたの利用するコンピュータ上で正しく動作していることが前提となります．
AWK: BSD 系の UNIX であれば，たいていの場合インストールされています．不幸にして無ければ，GNU ソフトウェアとともに配布されていますので，別途入手してインストールしてください．
PERL: BSD 系の UNIX であれば，たいていの場合インストールされています．不幸にして無ければ，別途入手してインストールしてください．
ディスク容量: 本ソフトウェアパッケージは 10 MB 以上のハードディスクの空き容量を必要とします．あなたの利用する計算機のディスクの空き容量を確認してください．

本ソフトウェアパッケージの構成

README	READMEファイル．お使いの前にお読みください
COPYRIGHT	Copyright表示
RULE/	形態素解析規則データ
DICT/	辞書データ
MISC/	ユーティリティープログラム

RULE/JUMAN.connect.c	日本語形態素解析規則
RULE/JUMAN.grammar	解析エンジン用日本語形態素分類
DICT/CLOSEWORD/*.txt	閉じた語の辞書データ
DICT/OPENWORD/	(開いた語の辞書データ)
DICT/OPENWORD/BNST/*.txt	動作確認用辞書データ
DICT/OPENWORD/IPAL/*.txt	IPAL 辞書の見出し語を基に作成した辞書データ
DICT/OPENWORD/LCT1/*.txt	動詞・副詞・形容詞等の辞書データ
DICT/OPENWORD/LCT2/*.txt	名詞辞書データ
DICT/OPENWORD/SIZN/*.txt	ある物語を解析するのに足りるだけのサンプル辞書データ
MISC/LIB/*.sh	形態素解析パーザを作成する各種シェルスクリプト
MISC/CORPUS/BUNSETU/*.TXT	動作確認用テキストデータ
MISC/CORPUS/CNST/kenpo*	演習用サンプルコーパス
MISC/CORPUS/CNST/words.txt	演習用サンプル辞書
MISC/LIB/PROG/AWK/*.awk	AWK で記述されたユーティーリティープログラム
MISC/LIB/PROG/PERL/*.pl	PERL で記述されたユーティーリティープログラム

FTP

README
ソースプログラム、マニュアル [846K]