• 締切済み

ログインページのソースを取得する方法

過去に 『WEBページのソースを取得する方法』 http://oshiete1.goo.ne.jp/qa1783894.html という質問を見たのですが、ログインが必要なページのソースを取得したくて、これと同じような要領で試してみたのですがうまくいきません。 私がしたいことは、自分が借りているレンタルサーバーから、mixiなどのマイページにアクセスしてHTMLソースを取得してそのソースを整形して一部を自分のレンタルサーバーで公開したいのですが。 説明がわかりにくいとおもいますが、どうかご教授願えますよう宜しくお願いいたします。

みんなの回答

回答No.1

取得したいサーバのログインの方法によりますね。 例えばCookieが必要なサイトであれば、Cookie対応のシステムを構築する必要がありますね。BASIC認証であれば、BASIC認証しなければいけません。 だいたいPEARのHTTP::Requestを使えば実装出来るようです(未検証)。私はcurl関数を使う事が多いですが。 ログインページのソースを見て、ログインの時にどのような変数を送信しているかを見たり、ブラウザに保存されているページのCookieを使う等の工夫が必要の場合もあります。サーバ側でUSER_AGENTで規制してる場合はUSER_AGENTの偽装(あまり良い言葉ではないですね)も必要になるでしょう。 ログインページに最近よく見る画像認証(Captcha)があれば、通常はコンピュータで自動ログインする事は無理だと思います(簡単に出来てしまえばこの技術そのものが意味が無い)。 JavaScript等を使って暗号化している可能性もあります。こうなるとJavaScriptの解析が出来るクライアントソフトが必要になりますが、そういうものがあるかどうかはちょっと分かりません。 ログインが比較的簡単に実装されている場合は可能ですが、かなり複雑な場合は駄目、と言う事です。 参考まで。

xxmarchanx
質問者

補足

ご丁寧にどうも有難うございます。 ご回答いただいた内容を参考にPEARのHTTP::Requestやcurl関数、送信しているデータなどを調べて試してみます。 どうもありがとうございました。