締切済み

Webから日本語取得、無難なクローラーは？

2016/07/25 22:08

言語処理のために大量の日本語文章が欲しいです。 Webから取るのが現実的的かとおもっており、クローラーを使おうと思っています。各ページ1回だけで、取ったら更新はほぼしません。取得対象に影響を与えない事を優先したいです。オススメのクローラーがあれば教えてください。取得先の情報で分類出来るとうれしいです。取得はlinuxサーバから行う予定です。

k_kota
お礼率79% (134/168)

SEO
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

みんなの回答

superside0
ベストアンサー率64% (463/719)

2016/07/26 09:53 回答No.1

SEOとかサイトのランク付けとか関係なくて、ただのダウンローダーがあればいいんですよね？ならば、wget で再帰処理すればリンクをたどってhtmlが取り出せるんであとは、sedでHTMLタグを削除して文章のみにすればよいのでは。取得先のドメイン名/階層名　と文章を紐付けしてDBに格納するとかドメインごとに１ファイルにまとめる　必要があるならそのスクリプトは自作することになるでしょうけど。

質問者

お礼 2016/07/26 13:46

どうもありがとうございます。そうすれば出来るのは分かるのですが、それをきっちり実装しようとするろ結構な工数が掛かるので質問しております。

Webから日本語取得、無難なクローラーは？

みんなの回答

お礼 2016/07/26 13:46

関連するQ&A

webクローラー

ホスト名の取得できないアクセスはクローラなのでしょうか？

自作webクローラーの実行サーバ

AIは使う人の年齢や市場にも影響する？人工知能の可能性

クローラーがhtaccessでリダイレクト

webサーバに

クローラーについて

C++言語　更新ファイルからログ情報取得

Webサーバとアプリサーバの違い

HTMLを少し勉強、Rubyを勉強したいが

DBサーバーのOracleからのデータ取得について

同一ドメインでWEBサーバとメールサーバを別々にすることは可能か？

Webアプリ開発

他のWEBサイトの情報を自動で取得して表示させる。

JavaScriptとWEBプログラミング言語！

ウェブサービスによるoracleへの同時接続

SSH2で対象ホストのディレクトリに置いてあるファイルの一覧を取得したい

Webアプリ開発言語など選定について

web・mailはLinux　ファイルサーバはSBS2003

自宅設置のWEBサーバーからメール送信

Webサーバの監視

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

Webから日本語取得、無難なクローラーは？

みんなの回答

お礼 2016/07/26 13:46

関連するQ&A

webクローラー

ホスト名の取得できないアクセスはクローラなのでしょうか？

自作webクローラーの実行サーバ

AIは使う人の年齢や市場にも影響する？人工知能の可能性

クローラーがhtaccessでリダイレクト

webサーバに

クローラーについて

C++言語 更新ファイルからログ情報取得

Webサーバとアプリサーバの違い

HTMLを少し勉強、Rubyを勉強したいが

DBサーバーのOracleからのデータ取得について

同一ドメインでWEBサーバとメールサーバを別々にすることは可能か？

Webアプリ開発

他のWEBサイトの情報を自動で取得して表示させる。

JavaScriptとWEBプログラミング言語！

ウェブサービスによるoracleへの同時接続

SSH2で対象ホストのディレクトリに置いてあるファイルの一覧を取得したい

Webアプリ開発言語など選定について

web・mailはLinux ファイルサーバはSBS2003

自宅設置のWEBサーバーからメール送信

Webサーバの監視

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

C++言語　更新ファイルからログ情報取得

web・mailはLinux　ファイルサーバはSBS2003