ベストアンサー

タグで囲まれた文字を取得する方法

2006/01/21 20:06

タグで囲まれた文字列を取る関数とかないでしょうか。「この部分」を取りたいのです。　<td>この部分</td> 　<font color="#ff0000">この部分</font> 　<a href="http://test.com">この部分</a> 同じタグがいくつも有る場合もあるので、頭から（下から）の検索スタート文字数とか決められれば最高です。調べてみたところ下のモジュール？をつかうと <title></title> とかの間はとれるようですが・・・ WWW::Mechanize LWP::UserAgent

hikou
お礼率92% (77/83)

Perl
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

BLUEPIXY
ベストアンサー率50% (3003/5914)

2006/01/22 05:20 回答No.2

HTML::TokeParser を使ったリンクテキストを取り出す例 ---------------------------------------------------------------- use encoding 'shiftjis'; use HTML::TokeParser; my @link=(); #リンクタグのテキストを集積する open(my $fh, "<:encoding(shiftjis)", 'test.html'); my $p = HTML::TokeParser->new($fh); while (my $token = $p->get_tag('a')) { my $text = $p->get_text('/a'); push(@link, $text); } close($fh); print $link[2]; #リンクテキストを番号で扱える ---------------------------------------------------------------- サンプルはリンクのみのものだけども混在したタグを扱う（同時に、<a>,<font>など）場合 while($token = $parser->get_token()){ if($token->[0] eq 'S' && $token->[1] eq 'a'){ のようにすることで、タグの種類を調べて動作を分岐すればよい詳しくは perldoc HTML::TokeParser を参照

質問者