締切済み

探してます→リンク先の特定単語を抽出してくれるダウンロードソフト

2007/10/02 13:41

お世話になります。ダウンロードソフトを探しています。サイトのリンク先にある単語Aを含んだ情報を抽出し、テキストやワード・エクセルにペーストしたいのです。毎回ページを閲覧して、コピペしてたのですが、大変要領が悪く、非効率でした。数百ページにも及ぶともうお手上げです。わかりづらいのですが例えば、研究者関連のサイトで、雑誌名Aを特定検索かけると、雑誌名Aを含んだテキスト、出版年Bを特定検索かけると、出版年Bを含んだテキスト、と言った具合でリンク先を自動検索して抽出するソフトがあれば大変大変助かります＾＾さらには、サイトCに貼ってあるリンク先D,E,F,G,H,I...etc. のリンクページなどにも自動検索してくれるともっと嬉しいです。諸先輩方どうか助けてください・・・＞＜

yoroshikumail
お礼率79% (50/63)

その他（プログラミング・開発）
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

みんなの回答

notnot
ベストアンサー率47% (4900/10358)

2007/10/02 22:36 回答No.1

抽象的な質問なので、答えにくいのですが、一般的にウェブページを自動的に解析して情報を抽出する技術のことを、「ウェブスクレイピング」といいます。目的とするサイトごとにスクリプトを書くことになります。質問の文章から察すると、ちょっと荷が重そうですね。一応キーワードをあげておくとPerlないしRubyで、Mechanizeなどを使って書くことになります。

質問者

補足 2007/10/03 01:01

notnotさまご回答ありがとうございます。教えて頂いたキーワードで軽く調べたところ、 Web3.0的要素が高くまだまだ私には使いこなせそうにありません＞＜ PHP素人かじりの私です＞＜簡単に言うと、スパイダーやクローラーのようなイメージのソフトを探していました。ただ、アドレス収集が目的ではないので、困っているのです。＠認識の変わりに、単語認識とした抽出を狙っていました。巷には、画像ファイルや動画などの自動ダウンロードソフトはごろごろ転がっているのですが、テキストとなると難しいみたいですね。説明下手で申し訳ありませんでした。もしもnotnotさまがおっしゃる方法を実行するならば、 http://www.testtest.ne.jp/test.html/test1.html http://www.testtest.ne.jp/test.html/test2.html http://www.testtest.ne.jp/test.html/test3.html にある末端階層の情報を抽出するのには、 http://www.testtest.ne.jp/test階層のスクリプトを記入するのではなく、（この例だと1回） http://www.testtest.ne.jp/test.html/test1.html階層毎にスクリプト記入しなければならないのでしょうか？（この例だと3回）もしそうならば確かに荷が重いですね…＾＾；

探してます→リンク先の特定単語を抽出してくれるダウンロードソフト

みんなの回答

補足 2007/10/03 01:01

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう