平成10年度 委託研究ソフトウェアの中間報告 |
研究代表者: | 古川 康一 教授 |
---|---|
慶應義塾大学 |
本研究の目的は、データマイニングの機能の高度化である。データマイニング の研究においては、知識を抽出するエンジン部が重要となる。しかし、一階述 語論理学習器では、効率面の問題から、通常データマイニングで扱われるよう な大規模なデータを対象とすることは困難である。本研究においては、この問 題を解決し、従来のデータマイニング技術では扱うことが困難であった「関係 知識」を対象とした、表現力に富み、かつ効率の良い、データマイニングエン ジンの開発を目指す。より具体的には、現在の帰納論理プログラミングシステ ムの高機能化及び高速化を目的とする。
本研究においては、その目的達成のために、(1)帰納推論アルゴリズムの改良、 (2)表現言語の(拡張)Datalogへの制限、(3)推論エンジンとデータベースシス テムの連結、に関して研究を行っている。これまでに(1)に関しては、(i)昨年 度までに開発したアルゴリズムの詳細の精密化、(ii)他のシステムで採用され ている(バイアスなども含めた)効率化手法の調査、検討を行った。また(2)と (3)に関しては、(i)演繹データベースシステムとそこでの拡張Datalog言語の 表現能力、(ii)関係データベース利用のための、質問文のProlog表現からSQL 表現への変換、について、既存の研究やシステムの調査を行い、今回開発する システムへの適用可能性に関して検討を行った。また、これらの調査・検討を もとに、システム全体の設計を行い、現在Prologによる実装に着手したところ である。
昨年度開発した、部分演繹計算を利用した正事例、背景知識の漸増的な修正を 行うデバッグツールをもとに、事例だけではなく、背景知識に関する帰納推論 を行うシステムを試作した。これにより、与えられた問題に対して、より深い 解析や推論が可能となると予想される。データベースとの連結に関しては、昨 年度開発した推論エンジンを対象に、外部関係データベース利用のための、 PrologからSQLへの変換とクエリ発行のタイミングなどに関して明確化を行っ た。
今回開発するシステムは、推論アルゴリズム自体の効率化により、仮説列挙の 無駄が軽減され、より複雑な問題にも対処できるものになると予想される。ま た、背後にデータベースを持つ形でシステム全体を設計してあるので、仮説評 価にかかるコストが削減され、規模の問題が解決されるのと同時に、データベー スからの直接的な知識の発見が可能になると予想される。