締切済み

Perl HTMLソースから特定のタグ抽出

2017/09/21 13:04

use LWP::UserAgent; use HTTP::Request; use HTTP::Response; our $URL = 'https://www.yahoo.co.jp/'; # アクセスする URL my $proxy = new LWP::UserAgent; $proxy->agent('your own created browser name here'); # 任意 $proxy->timeout(60); # 任意 my $req = HTTP::Request->new('GET' => $URL); my $res = $proxy->request($req); my $content = $res->content; print "Content-Type: text/html\n\n"; # HTML ヘッダ (CGI として動作できる) if($res->is_success) { print $content; } else { print 'HTTP エラーコード: ' . $res->code; } これで、HTMLソース全てを取得することはできましたが、例えば、このソースはヤフーのコードを取得していますが、ヤフーのコード内で<li></li> リストタグないの文字列がほしいのですが、どのように抽出すればいいのでしょうか？ヤフーでは、下記のようになっていて <li><a hrf="???????????????">ここの文字列写真new</li> このソースからここの文字列を抽出させたいです。さらに、1番目の<li>内、4番目の<li>内といったことも実行したいです。どうかご教示お願い致します。

perlhogehoge
お礼率82% (32/39)

Perl
回答数2
ありがとう数3

みんなの回答 （2）
専門家の回答

みんなの回答

Wap58
ベストアンサー率33% (29/87)

2017/09/21 23:22 回答No.2

yahooインデックス見たけど <a>タグは</a>タグで閉じられてるタグを抜き出すのか文字列なのかわからない解答になってるのかもかわからないから参考に open KK,'yahoo.txt'; my $counter = 0; my $search = 4; # 4番目 while(<KK>){ if($_ =~ m[^<li.+>(.+)</a>]){ if($search){ $counter++; if($counter == $search){ print"$1\n"; } }else{ print"$1\n";} } } close KK;

質問者

お礼 2017/09/22 14:54

ありがとうございます！解決しました

hok212
ベストアンサー率66% (100/150)

2017/09/21 22:29 回答No.1

基本形は次のような形式になると思います。元ソースの次の部分を if($res->is_success) { print $content; } 次のように書き換えます。 if($res->is_success) { @lines = split(/\n/,$content); #ソース全部を改行コードで区切り配列に入れる foreach (@lines) { $_ =~ s/<li>(\w+)<li>/$1/i; # liタグの内側の文字列を取得 $line = $1; $line =~ s/\w+//ig; # spanタグおよび内側の文字列を消去 $line =~ s/<.*?>//g; #残りのタグを除去 print $line; } }

Perl HTMLソースから特定のタグ抽出

みんなの回答

お礼 2017/09/22 14:54

お礼 2017/09/22 14:54

関連するQ&A

Perl LWPでproxyがうまく刺さらない

web文書を取得するプログラムのサイト内での不具合について

Perlで言う、LWP　HTTPをPHPで

[LWP?] 特定のCLASSの値だけ取得したい

LWPでヘッダー情報をあらかじめ取得したい

Perlのコードを隠蔽する

テキストの自動収集について

LWPモジュールでログインしHTML取得

CGIの接続エラー

LWPでHTTPSサイトからコンテンツ取得

LWPで応答データを取得できない

LWPで意図したhtmlがダウンロード出来ない

HTML::TreeBuilderについてです

LWPでPOST送信した後に送信先に移動したい

perlでhtmlファイルを取得したいのですが

Perl ログオン後の別ページへのリクエスト

モジュールを使ってリクエストヘッダーの表示をさせたい

perlで画像をダウンロードしようと思っています

別サーバーへの書き込み

プロキシを経由して他サイトのデータを取得する

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

Perl HTMLソースから特定のタグ抽出

みんなの回答

お礼 2017/09/22 14:54

お礼 2017/09/22 14:54

関連するQ&A

Perl LWPでproxyがうまく刺さらない

web文書を取得するプログラムのサイト内での不具合について

Perlで言う、LWP HTTPをPHPで

[LWP?] 特定のCLASSの値だけ取得したい

LWPでヘッダー情報をあらかじめ取得したい

Perlのコードを隠蔽する

テキストの自動収集について

LWPモジュールでログインしHTML取得

CGIの接続エラー

LWPでHTTPSサイトからコンテンツ取得

LWPで応答データを取得できない

LWPで意図したhtmlがダウンロード出来ない

HTML::TreeBuilderについてです

LWPでPOST送信した後に送信先に移動したい

perlでhtmlファイルを取得したいのですが

Perl ログオン後の別ページへのリクエスト

モジュールを使ってリクエストヘッダーの表示をさせたい

perlで画像をダウンロードしようと思っています

別サーバーへの書き込み

プロキシを経由して他サイトのデータを取得する

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

Perlで言う、LWP　HTTPをPHPで