• ベストアンサー

wgetでサイトダウンロード時のトラブル

サイトまるごとダウンロードしようと思い(自己サーバ、自己コンテンツ) wget -r -l 0 http://example.com しましたが、どうも行儀悪いCMSで書きだされているHTMLらしく <img src=1234 .jpg> のように画像タグ途中に改行が入っており wget は改行も含めたURLに画像を取りに行くためNOT FOUNDなります。 何かしら良い手は無いでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • notnot
  • ベストアンサー率47% (4900/10358)
回答No.2

wgetでは無理です。 自分でプログラムを書くことになります。 他人にプログラムを書いてもらうことを求めるのであれば、質問文には情報が不足しています。 目的のサイトのURLを書きましょう。 あるいは、HTML自体は得られると思うので、エディタで編集して目的の画像のURLを抽出すれば良いのではないでしょうか。これだとプログラムを書くスキルが無くても、エディタを使うスキルがあれば十分可能です。

muuming2001
質問者

お礼

wgetのオプションでは無理なんですね。 それでは自分で組みます。 ありがとうございます。

その他の回答 (1)

  • vaidurya
  • ベストアンサー率45% (2714/5983)
回答No.1

逆に、それはダウンロード志向に対しての ささやかな難ダウンロード化仕様のようにも見えますよ ダウンロードする必要が無いものはダウンロードしない ダウンロードする価値があるなら 見合うコストをかけることになると思います。 簡単に言えば、HTMLはマシンリーダブルなので 整形してwgetに渡すこと自体は難しく無いはずですよ。

muuming2001
質問者

お礼

>>ささやかな難ダウンロード化仕様のようにも見えますよ いへ意図していないバグです・・・ >>整形してwgetに渡すこと自体は難しく無い 私には難しいので質問サイトで質問させていただいております。

関連するQ&A