• 締切済み

wgetなどでhtmlファイルを大量ダウンロードした際、20万ファイル辺りで極端にダウンロード速度が遅くなる原因を教えてください

検索の切り口がわからず、こちらに質問させていただきました。 PCはwindows2000です。wgetなどのツールを用いてhtmlファイルを大量にダウンロードしているのですが、20万ファイル(1ファイル平均サイズ8KB)辺りから極端にダウンロード速度が遅くなります。 また、ファイルが格納されているフォルダを開く際も、10万ファイル、15万ファイル程度のときは格納ファイル数の表示などもすぐにプロパティから表示されるのですが、20万ファイルを超えた辺りからそれらの表示にものすごく時間がかかるようになります。 なお、こうした大量のデータを扱うような使い方でなければHDは問題なく動きます。 デフラグは行いましたが状況に変化はなしです。 状況を改善したいのですが、原因把握の切り口がわからないため、メモリなのかHDなのか、CPUなのかOSなのか、この現象の要因として考えられる切り口を教えていただけないでしょうか?

みんなの回答

  • honnsuki
  • ベストアンサー率18% (62/329)
回答No.2

Wgetでのダウンロード時にURLをたくさん指定してませんか。 以前私も1000万件ダウンロードしようとしたときに、メモリー不足でそうなったことがありました。 最初にURLのリストをメモリーに読み込んでからおもむろにWgetがウェブサイトにアクセスしているみたいですので、一回に指定するURLの数を減らしてみるといいかもしれません。 Windowsではバッチファイルにて連続作業させることができます。 これはほんの一例ですが、まず、URLの1万個分のバッチファイルを作ります。 wgetlunch1.bat ------------------------------------------------- set PATH=c:\Gnuwin32\bin @echo off wget -r -np -nH -m -k -i urls1.txt -P /mydocuments/targetsite/ cd -------------------------------------------------- urls1.txtには1万個分のURLを指定します。 それを20個作ります。 wgetlunch2.bat ------------------------------------------------- set PATH=c:\Gnuwin32\bin @echo off wget -r -np -nH -m -k -i urls2.txt -P /mydocuments/targetsite/ cd -------------------------------------------------- ・ ・ ・ バッチファイルで、それを順次動作させます。 alldownload.bat --------------------------------------------------- wgetlunch1.bat wgetlunch2.bat ・ ・ ・ wgetlunch20.bat pause --------------------------------------------------- 15万で動くそうですから、1万ずつに区切らなくてもいいかもしれません。 もっとスマートな方法もあるかもしれませんが・・・。 見当はずれでしたらごめんなさい。

picot_k
質問者

お礼

おー、ありがとうございます。 なんらかの作業の自動化は必要と考えていて、エクスプローラーを開いてのファイル操作ではなく、コマンドラインでの操作の仕方を調べているところでした。 そもそもwgetでURLを取るところからコマンドプロンプトで分割して行うようプログラミングをするわけですね。 この方向で一旦やってみます。取り急ぎお礼申し上げます。本当にありがとうございます。

すると、全ての回答が全文表示されます。
回答No.1

単一のフォルダの中に大量のファイルがある場合、動作が鈍くなったように記憶しています。 一定量のダウンロード毎に、保存フォルダの変更はできないのでしょうか?

picot_k
質問者

お礼

回答ありがとうございます。ちょっと質問が込み入っていたので、なかなか回答をいただくのが難しいと考えてはいたのですが、視点をいただけるだけで感謝しております。 ハイスペックなパソコンでこの作業を行っていないので(ちなみにスペックはCPU:sempronの2800くらい、メモリー2G、HDD:250GBでそれぞれそんなに高くないです)、どこにボトルネックがあるのかなんとも言えないのですが、wgetでのファイルダウンロードだけでなく、プロパティでのファイル数など情報の閲覧、フォルダを開いてのファイル操作など、あらゆる項目であるファイル数(20万ファイル程度)を境にそうした現象が起きるので、単一フォルダ内のファイル数の辺りは調べてみた方がよさそうですね。 ありがとうございます。

すると、全ての回答が全文表示されます。

関連するQ&A