- ベストアンサー
wgetでサイトダウンロード時のトラブル
サイトまるごとダウンロードしようと思い(自己サーバ、自己コンテンツ) wget -r -l 0 http://example.com しましたが、どうも行儀悪いCMSで書きだされているHTMLらしく <img src=1234 .jpg> のように画像タグ途中に改行が入っており wget は改行も含めたURLに画像を取りに行くためNOT FOUNDなります。 何かしら良い手は無いでしょうか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
wgetでは無理です。 自分でプログラムを書くことになります。 他人にプログラムを書いてもらうことを求めるのであれば、質問文には情報が不足しています。 目的のサイトのURLを書きましょう。 あるいは、HTML自体は得られると思うので、エディタで編集して目的の画像のURLを抽出すれば良いのではないでしょうか。これだとプログラムを書くスキルが無くても、エディタを使うスキルがあれば十分可能です。
その他の回答 (1)
- vaidurya
- ベストアンサー率45% (2714/5983)
回答No.1
逆に、それはダウンロード志向に対しての ささやかな難ダウンロード化仕様のようにも見えますよ ダウンロードする必要が無いものはダウンロードしない ダウンロードする価値があるなら 見合うコストをかけることになると思います。 簡単に言えば、HTMLはマシンリーダブルなので 整形してwgetに渡すこと自体は難しく無いはずですよ。
質問者
お礼
>>ささやかな難ダウンロード化仕様のようにも見えますよ いへ意図していないバグです・・・ >>整形してwgetに渡すこと自体は難しく無い 私には難しいので質問サイトで質問させていただいております。
お礼
wgetのオプションでは無理なんですね。 それでは自分で組みます。 ありがとうございます。