• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:対象サイトのhtmlを取得・解析したい)

対象サイトのhtmlを取得・解析したい

このQ&Aのポイント
  • 対象サイトのhtmlを取得し解析・一部情報を抽出する機能を作っていますが、抽出したい情報が入っていないため困っています。
  • firebugで対象サイトのhtmlを確認すると抽出したい情報は表示されていますが、ブラウザでソースを表示すると隠蔽されています。
  • 抽出したい情報の箇所は動的に生成されているものであり、file_get_contentsで読み込んでいるのが原因かもしれません。別の方法で情報を抽出する方法があれば教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

>そもそも抽出したい情報の箇所は動的に生成されているものでfile_get~で読みにいっているものは動的に出力される前のものを読み込んでいるのが原因でこのような結果になっているのでしょうか? の部分が、Javascriptなどによって後から動的に生成されているということであれば、 >そもそも抽出したい情報の箇所は動的に生成されているものでfile_get~で読みにいっているものは動的に出力される前のものを読み込んでいるのが原因でこのような結果になっているのでしょうか? 質問者様のこちらの認識で間違いないかと思います。 Javascriptなどのレンダリングが完了した後のHTMLを取得するということになると、 PHPを用いてというのはおそらく難しく、 VBなどの言語を使って、ブラウザの動作(Javascriptの実行完了までの動作)を実行した後、 ソースコードを取得するようなアプリケーションを作成する必要があるのかなと思います。 (VB等にはあまり詳しくなく具体例が出せないのが心苦しいのですが・・・) 以上です。ご参考になれば幸いです!

takachipo
質問者

お礼

ご回答有り難うございます! なるほど。。 レンダリング後のHTMLを読み込めればいいんですね。 少し糸口が掴めたような気がします! 有り難うございます!

その他の回答 (1)

  • t_ohta
  • ベストアンサー率38% (5238/13705)
回答No.2

firebugではhtmlを見られるがブラウザでソースを表示すると見えないのは、HTML上には何も書かれておらずブラウザでJavaScriptを実行して書き足しているという事です。 従って、その部分の情報を得るにはJavaScriptを実行する必要ああります。

takachipo
質問者

お礼

ご回答有り難うございます! javascript部分で出力しているんですね。 やはりphpでは難しそうですね。。 色々試してみようと思います!

関連するQ&A