• ベストアンサー

Webページからテキストを自動で抽出するプログラム

複数のWebページ(html)からテキストだけを抽出する作業を自動で行うツールが必要なのですが、知っているのがあれば教えて欲しいです。 または、それを開発するにはどの言語が教えてくださると嬉しいです。 Webページのテキストの一部でもいいですが、すべてを抽出しても構いません。

質問者が選んだベストアンサー

  • ベストアンサー
noname#138894
noname#138894
回答No.1

「テキストだけ」という条件は、HTMLソースコードからHTMLタグ部分を削除するという感じでしょうか? であれば、web関係の関数を持ってる言語ならどんな言語でもいけると思いますよ。 なので、もう少し条件が必要です。 ・ツールをwindowsから使えるGUIアプリで使いたいのか ・どこかサーバ上で動作させる ・webページの更新まで自動でやるのか etc・・・ ちなみにPHPならサーバ上で動かす前提ですが、下のようなコードで出来ます。 //webページを読み込む $res = file_get_contents('http://example.com'); //HTMLタグを除去する $result = strip_tags($res); $resultをファイルに保存する という感じで一つのwebサイトを読み込むことが 出来るので(head内をどうするかとか、詳細は積める必要があります) これに加えて、何らかの形で読みこみ先URLを保存しておいて、 ループで全部処理するような形にすれば自動的に処理が行えます。

CheNelle
質問者

お礼

僕にはまだ早かったみたいです。ありがとうございました。

関連するQ&A