• ベストアンサー

perlでhtml 解析

perlでhtmlを解析して、ほしい情報を抽出したいのですが、 タグで囲まれたテキスト情報を抽出できるものは多くありますが タグの中の情報を取得できるモジュールや方法はありますか? たとえば html内の  <a href="******" onclick="return opendetail(******);"> のなかの********を抽出をしたいです。

質問者が選んだベストアンサー

  • ベストアンサー
  • diszo
  • ベストアンサー率78% (32/41)
回答No.1

モジュールはいくつかあります。 ・HTML::TreeBuilder ・Web::Scraper など HTML::TreeBuilderの使い方として、 リンクのURLを抽出しているサンプルを紹介しているサイトがありましたので、 参照URLをご覧ください。 onclick="return opendetail(******)の******の部分は、 onclickで抽出して、その後、正規表現などで 抽出すればいいと思います。

参考URL:
http://www.geekpage.jp/programming/perl-network/html-treebuilder-2.php
hi_mawa
質問者

お礼

ありがとうございます! 参考にさせていただきます!

関連するQ&A