PHPで取得したHTMLソースと実際のソースの違い

2012/12/29 15:01

このQ&Aのポイント

PHPで取得したHTMLソースと実際のソースの違いについて調査しました。
取得したHTMLソースと実際のソースが異なる場合があるのか、その原因と可能性について考察しました。
PHPでのページ取得の限界や対処方法、他の取得方法についても確認してみました。

macus
お礼率76% (331/433)

PHP
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

shockatz
ベストアンサー率80% (153/191)

2012/12/31 00:47 回答No.1

クエリ文字列に全部の閲覧情報が入っているというのは甘いケースです。 Webアプリケーションの動作においては、クエリ文字列だけでなく、その時点でのSessionの値も評価の対象になっている場合が多いです。ページ・スクレイピングを行う場合は、必要ならば、スクレイプしたい詳細画面の前にあるカテゴリ選択や、一覧表示画面、さらにはその前の商品分類画面から、人間が検索していくように絞り込んでいく過程をとる必要があります。また、匿名アクセスに対してもトップ画面でCookieを発行しているサイトが多いので、Cookie保存への対策も行う必要があります。（BookOffはこのタイプでしょう）とにかく最近は、プログラムを使った掲載情報の盗用を防ごうと、あの手この手で防衛策をとっていますので、それに対抗しなければいけません。まあ、ブラウザだけ見れて、スクレイピングに対して完全に隠し通せる情報はありませんので、丁寧に読んで行けば問題ないはずです。

ログインすると、全ての回答が全文表示されます。