http://www.smlab.tutkie.tut.ac.jp/research/NL/tools/REDs/
現在のVersion:0.1.1
REDs-0.1.1.tar.gz ダウンロード(tar+gzippd)
README ファイルはこちら
[概要]
REDs は UNIX 上で日本語文書を対象として、関連文書検索[1]ならびに複数文
書(新聞記事を想定)の要約[2]を行なうプログラムです。プログラムは全て
perlで書かれています。また、検索ならびに、要約プログラムともに形態素解
析器を必要とします。形態素解析器としてはJUMANを使用することを前提とし
ています。
関連文書検索システムは、インデクサプログラムと検索プログラムの2つの
プログラムからなります。インデクサプログラムは、作成するインデックス名
と対象とするディレクトリを指定すると、指定されたディレクトリ以下に含ま
れる全ての文書をインデックスにまとめます。インデックスとしてgdbmライブ
ラリを用いたハッシュデータベースを使用します。検索プログラムはインデッ
クスファイル(通常と転置インデックスの2つ)と検索対象である文書をコマン
ド引数として渡されるとそれに関連する文書のパスと計算結果である関連度を
出力します。
複数文書要約プログラムは独立した一つのプログラムで、引数として対象と
する文書のファイル名を複数渡すと、内部で形態素解析器を呼び、要約を実行
します。
新聞記事を対象として関連文書検索、複数文書要約の動作の確認を行ないま
した。
======== 参考文献 ======== [1] 大竹 清敬、増山 繁、山本 和英:名詞の連接情報を用いた関連文書検索手法, 「情報処理学会論文誌」Vol.40, No. 5, pp. 2460-2467 (1999). [2] 大竹 清敬、船坂 貴浩、増山 繁、山本 和英:重複部・冗長部削除による 複数記事要約手法,「自然言語処理」Vol. 6, No. 6, pp. 45-64 (1999). ======== 利用条件 ======== このプログラムは大竹清敬が製作しました。 プログラムの著作権を主張しますが、以下の条件でご利用いただけます。 1) REDs は無償で利用可能であり、変更も自由にできます。 ただし、変更したものの配布は製作者まで相談ください。 2) REDs の著作権は大竹清敬 が 保有しています。 3) REDs の転載・配布は自由にできます。 ただし、入手したときのパッケージに変更を加えたものの配布は禁止します。 4) このソフトウェアを使用することによって生じた損害等につきまして、 当方では一切の責任を負いかねます。個人の責任において使用してください。 また、使用の際には著作権等の法令を遵守願います。法令に反した使用により 生じた結果に関して、当方では一切の責任を負いかねます。 5) 商用利用の際は、事前に製作者までご相談下さい。