平成8年度 委託研究ソフトウェアの成果ソフトウェア

(25) LTB 日本語文法のモデル化と新版文法規則の実装

研究代表者:佐野 洋 講師
      東京外国語大学 外国語学部



IFS- 汎用日本語形態素解析規則

機能概要

IFS 汎用日本語形態素解析規則は,ICOT(Institute for New Generation Computer Technology: 第五世代コンピュータ技術開発機構)フリーソフトウェ アの一つである形態素解析システム LAX の解析規則部分を JUMAN エンジン用 に移植し改良したもので,新たに辞書データも作成しました.

この形態素解析規則は,日本語サブセットを分節(形態素解析)する能力を 持っています.この形態素解析規則が前提とする形態組織の体系は,いわゆる 構文文法の品詞体系にできるだけ依存しないものであり,そのために,この規 則による解析の結果は,中立性が高く言語研究から各種アプリケーションまで 応用分野が広く応用できることが特徴です.

機能語(助辞と接辞)辞書が規則とともにリリースされています.いわゆる 内容語については標準的な辞書を持っていません.なお,リリースソフトウェ アには,IPAL 動詞辞書(IPA 特殊認可法人 日本情報処理振興事業協会・技術 センターからリリースされている電子化日本語辞書.動詞辞書,形容詞辞書, 名詞辞書が無償で公開されている)と形容詞辞書の辞書エントリーを基に作成 した規模の小さい辞書が添付されているほか,JUMAN 1.0 辞書から変換して作 成した 38,000 語(名詞を除く)の辞書も添付されています.

用途

自然言語処理

IFS汎用日本語形態素解析規則は,JUMAN, Chasen, Breakfast を解析エン ジンとして日本語の形態素解析を行うものです.本ソフトウェアパッケージは, JUMAN(Chasen, Breakfast) 付属のユーティリティプログラム群でコンパイル される形式の形態素解析規則と,複数の辞書データ,そして幾つかのユーティ リティープログラムから構成されています.

想定利用者

自然言語処理研究者、自然言語処理技術を応用するアプリケーション開発 者

利用環境

本ソフトウェアパッケージで提供される汎用形態素規則を使用するにあたっ ては,以下のコンピュータとそのコンピュータで動作するソフトウェアが必要 です.

コンピュータ
SunOS Release 4.x 等の UNIX OS が稼働するコンピュー タ.glibc, gcc などの gnu 関係のソフトウェアがインストールされているこ と.
解析エンジン
JUMAN 2.0 以上, Chasen 1.0 以上が必要です.無けれ ば,奈良先端科学技術大学院大学,もしくは京都大学から FTP を通じて入手 してください.さらに 解析エンジンを含むシステムが正しくインストールさ れ,システムの makemat, makeint, maketree などのユーティリティプログラ ムが,あなたの利用するコンピュータ上で正しく動作していることが前提とな ります.
AWK
BSD 系の UNIX であれば,たいていの場合インストールされてい ます.不幸にして無ければ,GNU ソフトウェアとともに配布されていますので, 別途入手してインストールしてください.
PERL
BSD 系の UNIX であれば,たいていの場合インストールされて います.不幸にして無ければ,別途入手してインストールしてください.
ディスク容量
本ソフトウェアパッケージは 10 MB 以上のハードディ スクの空き容量を必要とします.あなたの利用する計算機のディスクの空き容 量を確認してください.
本ソフトウェアパッケージの構成

README READMEファイル.お使いの前にお読みください
COPYRIGHTCopyright表示
RULE/形態素解析規則データ
DICT/辞書データ
MISC/ユーティリティープログラム


RULE/JUMAN.connect.c 日本語形態素解析規則
RULE/JUMAN.grammar 解析エンジン用日本語形態素分類
DICT/CLOSEWORD/*.txt 閉じた語の辞書データ
DICT/OPENWORD/ (開いた語の辞書データ)
DICT/OPENWORD/BNST/*.txt 動作確認用辞書データ
DICT/OPENWORD/IPAL/*.txt IPAL 辞書の見出し語を基に作成した辞書データ
DICT/OPENWORD/LCT1/*.txt 動詞・副詞・形容詞等の辞書データ
DICT/OPENWORD/LCT2/*.txt 名詞辞書データ
DICT/OPENWORD/SIZN/*.txt ある物語を解析するのに足りるだけのサンプル辞書データ
MISC/LIB/*.sh 形態素解析パーザを作成する各種シェルスクリプト
MISC/CORPUS/BUNSETU/*.TXT 動作確認用テキストデータ
MISC/CORPUS/CNST/kenpo* 演習用サンプルコーパス
MISC/CORPUS/CNST/words.txt 演習用サンプル辞書
MISC/LIB/PROG/AWK/*.awk AWK で記述されたユーティーリティープログラム
MISC/LIB/PROG/PERL/*.pl PERL で記述されたユーティーリティープログラム

FTP


関連サイト

juman3.1
京都大学長尾研究室が配布しているJUMAN 3.1
Chasen
奈良先端大学院大学松本研究室が配布しているChasen1.0
breakfast
(株式会社)富士通が配布している日本語形態素解析システム Breakfast version 4.0.4f

sano@fs.tufs.ac.jp
All Rights Reserved, Copyright (C) 1997, SANO Hiroshi
Last modified: May 16 1997

www-admin@icot.or.jp