• 締切済み

探してます→リンク先の特定単語を抽出してくれるダウンロードソフト

お世話になります。 ダウンロードソフトを探しています。 サイトのリンク先にある単語Aを含んだ情報を 抽出し、テキストやワード・エクセルにペーストしたいのです。 毎回ページを閲覧して、コピペしてたのですが、 大変要領が悪く、非効率でした。 数百ページにも及ぶともうお手上げです。 わかりづらいのですが例えば、研究者関連のサイトで、 雑誌名Aを特定検索かけると、雑誌名Aを含んだテキスト、 出版年Bを特定検索かけると、出版年Bを含んだテキスト、 と言った具合でリンク先を自動検索して抽出するソフトが あれば大変大変助かります^^ さらには、サイトCに貼ってあるリンク先D,E,F,G,H,I...etc. のリンクページなどにも自動検索してくれるともっと嬉しいです。 諸先輩方どうか助けてください・・・><

みんなの回答

  • notnot
  • ベストアンサー率47% (4900/10358)
回答No.1

抽象的な質問なので、答えにくいのですが、一般的にウェブページを自動的に解析して情報を抽出する技術のことを、「ウェブスクレイピング」といいます。 目的とするサイトごとにスクリプトを書くことになります。 質問の文章から察すると、ちょっと荷が重そうですね。 一応キーワードをあげておくとPerlないしRubyで、Mechanizeなどを使って書くことになります。

yoroshikumail
質問者

補足

notnotさまご回答ありがとうございます。 教えて頂いたキーワードで軽く調べたところ、 Web3.0的要素が高くまだまだ私には使いこなせそうにありません>< PHP素人かじりの私です>< 簡単に言うと、スパイダーやクローラーのようなイメージの ソフトを探していました。 ただ、アドレス収集が目的ではないので、困っているのです。 @認識の変わりに、単語認識とした抽出を狙っていました。 巷には、画像ファイルや動画などの自動ダウンロードソフトは ごろごろ転がっているのですが、テキストとなると難しいみたいですね。 説明下手で申し訳ありませんでした。 もしもnotnotさまがおっしゃる方法を実行するならば、 http://www.testtest.ne.jp/test.html/test1.html http://www.testtest.ne.jp/test.html/test2.html http://www.testtest.ne.jp/test.html/test3.html にある末端階層の情報を抽出するのには、 http://www.testtest.ne.jp/test階層 のスクリプトを記入するのではなく、 (この例だと1回) http://www.testtest.ne.jp/test.html/test1.html階層 毎にスクリプト記入しなければならないのでしょうか? (この例だと3回) もしそうならば確かに荷が重いですね…^^;