平成8年度 委託研究ソフトウェアの成果ソフトウェア |
機能概要 |
IFS 汎用日本語形態素解析規則は,ICOT(Institute for New Generation Computer Technology: 第五世代コンピュータ技術開発機構)フリーソフトウェ アの一つである形態素解析システム LAX の解析規則部分を JUMAN エンジン用 に移植し改良したもので,新たに辞書データも作成しました.
この形態素解析規則は,日本語サブセットを分節(形態素解析)する能力を 持っています.この形態素解析規則が前提とする形態組織の体系は,いわゆる 構文文法の品詞体系にできるだけ依存しないものであり,そのために,この規 則による解析の結果は,中立性が高く言語研究から各種アプリケーションまで 応用分野が広く応用できることが特徴です.
機能語(助辞と接辞)辞書が規則とともにリリースされています.いわゆる 内容語については標準的な辞書を持っていません.なお,リリースソフトウェ アには,IPAL 動詞辞書(IPA 特殊認可法人 日本情報処理振興事業協会・技術 センターからリリースされている電子化日本語辞書.動詞辞書,形容詞辞書, 名詞辞書が無償で公開されている)と形容詞辞書の辞書エントリーを基に作成 した規模の小さい辞書が添付されているほか,JUMAN 1.0 辞書から変換して作 成した 38,000 語(名詞を除く)の辞書も添付されています.
用途 |
自然言語処理
IFS汎用日本語形態素解析規則は,JUMAN, Chasen, Breakfast を解析エン ジンとして日本語の形態素解析を行うものです.本ソフトウェアパッケージは, JUMAN(Chasen, Breakfast) 付属のユーティリティプログラム群でコンパイル される形式の形態素解析規則と,複数の辞書データ,そして幾つかのユーティ リティープログラムから構成されています.
想定利用者 |
自然言語処理研究者、自然言語処理技術を応用するアプリケーション開発 者
利用環境 |
本ソフトウェアパッケージで提供される汎用形態素規則を使用するにあたっ ては,以下のコンピュータとそのコンピュータで動作するソフトウェアが必要 です.
本ソフトウェアパッケージの構成 |
README | READMEファイル.お使いの前にお読みください |
COPYRIGHT | Copyright表示 |
RULE/ | 形態素解析規則データ |
DICT/ | 辞書データ |
MISC/ | ユーティリティープログラム |
RULE/JUMAN.connect.c | 日本語形態素解析規則 |
RULE/JUMAN.grammar | 解析エンジン用日本語形態素分類 |
DICT/CLOSEWORD/*.txt | 閉じた語の辞書データ |
DICT/OPENWORD/ | (開いた語の辞書データ) |
DICT/OPENWORD/BNST/*.txt | 動作確認用辞書データ |
DICT/OPENWORD/IPAL/*.txt | IPAL 辞書の見出し語を基に作成した辞書データ |
DICT/OPENWORD/LCT1/*.txt | 動詞・副詞・形容詞等の辞書データ |
DICT/OPENWORD/LCT2/*.txt | 名詞辞書データ |
DICT/OPENWORD/SIZN/*.txt | ある物語を解析するのに足りるだけのサンプル辞書データ |
MISC/LIB/*.sh | 形態素解析パーザを作成する各種シェルスクリプト |
MISC/CORPUS/BUNSETU/*.TXT | 動作確認用テキストデータ |
MISC/CORPUS/CNST/kenpo* | 演習用サンプルコーパス |
MISC/CORPUS/CNST/words.txt | 演習用サンプル辞書 |
MISC/LIB/PROG/AWK/*.awk | AWK で記述されたユーティーリティープログラム |
MISC/LIB/PROG/PERL/*.pl | PERL で記述されたユーティーリティープログラム |
FTP |
関連サイト |
www-admin@icot.or.jp