平成8年度 委託研究ソフトウェアの 成果ソフトウェア |
構文解析済の日本語コーパスから得られる統計情報のみを利用した統計的日本 語依存構造解析システム。形態素解析システム「茶筌」(後述の[必要な環境] の項目を参照)の出力を文節に切り分け、文節の主要語の品詞情報、文節の機 能語の情報、文節間の距離、読点の出現などの情報に基づく統計的係り受けモ デルを定義し、それに基づいて統計的に最も自然な係り受け関係を出力する。 本システムの狙いは、ある程度の精度をもった荒い構文解析を人間の主観や人 手による規則作成の労力を用いることなく達成し、より詳細な情報を利用した 単一化文法などによる制約に基づく自然言語解析に優先情報を与えるシステム として有機的に働くことを目指したものである。今回の納入物件は、単独で動 く係り受け解析機能の部分だけであり、統計情報からの解析パラメータの学習 部、および、単一化文法との融合部については、今後公開を行う予定である。
UNIXマシン上のgccおよびPerlにより記述されている。また、日本語形態素解 析システム「茶筌」version1.0 の -eオプション出力を用いる。茶筌は次の URLから入手可能 URL: http://cactus.aist-nara.ac.jp/lab/nlt/chasen.html
1. 必要なファイル ★データ 文節区切りオートマトン用データ ./auto ./key ./zoku 係り受け解析用統計データ ./Hstat ★実行ファイル ./unit 文節区切りプログラム(Perl) ./dep 係り受け解析品詞版(Perl) ./best 最適解その他の計算(C言語) ./ki 係り受け結果の2次元表示(C言語) 2. コンパイル gcc -O2 -o best best.c gcc -O2 -o ki ki.c 3. 使い方 使用例: cat txt | chasen -e | unit -b | dep | best -v | ki
各プログラムの出力(入力文「彼は優勝すると意気込んでいた」の場合) [unit] オプションなし 文節ごとに改行した文字列のみを出力 %彼は %優勝すると %意気込んでいた。 %EOS -m オプション 主辞、品詞、関係、活用形、読点、句点、括弧開、括弧閉、文字列 %彼 普通名詞 -は/副助詞/- * t:0 m:0 k1:0 k2:0 彼は %優勝 動詞 -と/述語接続助詞/- 基本形 t:0 m:0 k1:0 k2:0 優勝すると %意気込む 動詞 -いる/動詞性接尾辞/基本- タ系連用テ形 t:0 m:1 k1:0 k2:0 意気込んでいた。 %EOS -b オプション -m オプションの"文字列"の部分を形態素単位で表示 .. 彼/普通名詞// は/副助詞// .. 優勝/サ変名詞// する/動詞/サ変動詞/基本形 と/述語接続助詞// .. 意気込んで/動詞/子音動詞マ行/タ系連用テ形 いた/動詞性接尾辞/母音動詞/タ形 。/句点// -v オプション -b オプションの形態素情報をより細かく出力(よみ&原形) .. 彼/かれ/彼/普通名詞// は/は/は/副助詞// .. 優勝/ゆうしょう/優勝/サ変名詞// する/する/する/動詞/サ変動詞/基本形 と/と/と/述語接続助詞// .. 意気込んで/いきごんで/意気込む/動詞/子音動詞マ行/タ系連用テ形 いた/いた/いる/動詞性接尾辞/母音動詞/タ形 。/。/。/句点// [dep] EOSからEOKまでの行で、各係り関係の確率をすべて表示 (ただし、表示される確率値は正規化してないものである) 基本形/品詞/活用型活用形.. :主辞 品詞 係り関係 活用形 .. EOS 係り元 係り先 確率値 .. EOK [best] EOSからEOKまでの行で、最適な係り関係とその確率を表示 (ただし、表示される確率値は正規化してないものである) 基本形/品詞/活用型活用形.. :主辞 品詞 係り関係 活用形 .. EOS 係り元 係り先 確率値 .. EOK [ki] 文末から文頭の順で2次元表示する。 2 意気込んでいた。 1 ┣優勝すると 0 ┗彼は
www-admin@icot.or.jp