• 締切済み

大量にウェブ上の情報を収集するおススメのウェブ巡回・ダウンローダありますか?

ウェブ上の情報をマイニング(解析等)する研究を行う上でまず必要なのは、 必要なデータをどれだけ多く、素早く、的確に集めることが出来るかだと思います。 現在「巡集」と呼ばれるフリーソフトで情報をちまちま集めているのですが、 キーワードが含まれているか否かのフィルタリングが行えなかったり、 画像保存に失敗することによるタイムロスが相当数あるなど、ちょっと満足できるものではありません。 そこで、皆さんがおススメするWeb巡回ソフト、ダウンローダはありますでしょうか。 基本的な用途は、いくつかある種URLからリンクを辿っていくこと。 読み込んだページ、画像などを保存していくこと(オフライン閲覧できるように)や、 URLやキーワードによるフィルタリングが可能であること、 並列ダウンロードなどを駆使して高速に巡回を行ってくれることなどです。 なお、一応の候補に以下を挙げておきます。 それぞれの良し悪しを教えて下さるだけでも大変助かります。 1.ダウンロードSpider4 DX(ジャングル) 2.ダウンロードNinja4 マッハ(イーフロンティア) 3.Download & Search Bee (クロノスクラウン) どうぞよろしくお願い致します。

みんなの回答

  • kata_san
  • ベストアンサー率33% (423/1261)
回答No.1

IE6.0までなら「i.j IE5 Web Rebuilder」が階層構造や表示などで ローカルファイルに保存できて便利です。 パスワードなどが必要ないものは、幽霊ファイルとして ダウンロードもできます。もちろんフリーでよいソフトです。 ローカルではリンクを作成して閲覧可能にする機能もあり かつて、通信費用が高価だった頃にはずいぶん重宝しました。 ファイルのサーバの日時がわかるのでそういったメリットもあり もちろん現在も、更新の有無の確認に使用しています。 難点は、JAVAに非対応です。作者がもう開発を終了しました。 動作については、Win2000ではほとんど問題が無いのですが、 WinXPの場合には、キャッシュ保存完了時にエラーがでます。 まれにキャッシュ出来ないサイトも多くなりました。 定期的に閲覧するような個所は、download.lstファイルを作成して おくことで更新がわかります。古いファイルを残すことも出来ます。 作者のページは、もうありません。 ベクターかLRCにあります。 http://www.vector.co.jp/vpack/filearea/win95/net/www/cache/ http://www2.lint.ne.jp/~lrc/in_cache.htm

driscoll
質問者

お礼

迅速なお返事ありがとうございます。 当方としては500GB~1TBぐらいのウェブデータ(HTMLファイルや画像ファイルなど)収集を目的としておりますので、若干目的が異なってはおりますが、このご提供頂いた情報も参考にさせて頂きます。 この度はありがとうございました。