• 締切済み

Webから日本語取得、無難なクローラーは?

言語処理のために大量の日本語文章が欲しいです。 Webから取るのが現実的的かとおもっており、クローラーを使おうと思っています。 各ページ1回だけで、取ったら更新はほぼしません。 取得対象に影響を与えない事を優先したいです。 オススメのクローラーがあれば教えてください。 取得先の情報で分類出来るとうれしいです。 取得はlinuxサーバから行う予定です。

みんなの回答

回答No.1

SEOとかサイトのランク付けとか関係なくて、ただのダウンローダーがあればいいんですよね? ならば、wget で再帰処理すればリンクをたどってhtmlが取り出せるんで あとは、sedでHTMLタグを削除して文章のみにすればよいのでは。 取得先のドメイン名/階層名 と文章を紐付けしてDBに格納するとか ドメインごとに1ファイルにまとめる 必要があるなら そのスクリプトは自作することになるでしょうけど。

k_kota
質問者

お礼

どうもありがとうございます。 そうすれば出来るのは分かるのですが、それをきっちり実装しようとするろ結構な工数が掛かるので質問しております。

関連するQ&A