• ベストアンサー

フレーム有りのhtmlファイルをwgetでダウンロードする方法を教えて下さい。

質問者が選んだベストアンサー

  • ベストアンサー
  • mag_net
  • ベストアンサー率60% (6/10)
回答No.1

wgetはコマンドベースなので、GetHTMLWをお薦めします。 (元のページがCGIベースなので、検索機能などは使用できません) 手順は以下の通りです。 1. 参考URLより gethtmlw-8.0.0.exe をダウンロード 2. 1.のファイルを実行し、適当な場所に解凍 3. GETHTMLW.EXE を実行 4. メニューバーの"取得(G)"→"WebPage取得"を選択 5. "取得するURLを入力します"というウィンドウに、取得したいURLを入力し実行ボタンを押す 6. GETHTMLW.EXE と同じフォルダに「law.e-gov.go.jp」というフォルダができます 7. GETHTMLW.EXE のルートディレクトリ(たぶん、C:\ )に、「law.e-gov.go.jp」フォルダの中身を全てコピーします 8. コピーしたフォルダの一つ「cgi-bin」を開き、idxselect.cgi.○○○.html というファイルを開きます この手順で見れることを確認しましたので、 以上問題なさそうです

参考URL:
http://www.vector.co.jp/soft/dl/win95/net/se077067.html
station702
質問者

お礼

ありがとうございました。 GETHTMLWのlinux版が、あるらいしいのですが、みつかりませんでした。 それで、ページのソースを確認後、googleで"M29HO089.html"検索して、 wget http://law.e-gov.go.jp/htmldata/M29/M29HO089.html#1000000000000000000000000000000000000000000000054500000000000000000000000000000 を実行したら、ダウンロードできました。 #の後ろは、どうしたらわかるのでしょうか?教えてください。

station702
質問者

補足

質問の説明が不十分でした。vine3.2の実行結果です。 [root]# wget http://law.e-gov.go.jp/cgi-bin/idxselect.cgi?IDX_OPT=2&H_NAME=&H_NAME_YOMI=%82%dd&H_NO_GENGO=H&H_NO_YEAR=&H_NO_TYPE=2&H_NO_NO=&H_FILE_NAME=M29HO089&H_RYAKU=1&H_CTG=1&H_YOMI_GUN=1&H_CTG_GUN=1%22 [1] 1690 [2] 1691 [3] 1692 [4] 1693 [5] 1694 [6] 1695 [7] 1696 [8] 1697 [9] 1698 [10] 1699 [11] 1700 [root]# --16:57:22-- http://law.e-gov.go.jp/cgi-bin/idxselect.cgi?IDX_OPT=2 => `idxselect.cgi?IDX_OPT=2' law.e-gov.go.jp をDNSに問いあわせています... 124.211.***.171, 202.219.***.235 law.e-gov.go.jp[124.211.***.171]:80 に接続しています... 接続しました。 HTTP による接続要求を送信しました、応答を待っています... 200 OK 長さ: 特定できません [text/html] [ <=> ] 776 --.--K/s 16:57:24 (7.40 MB/s) - `idxselect.cgi?IDX_OPT=2' を保存しました [776] [1] Done wget http://law.e-gov.go.jp/cgi-bin/idxselect.cgi?IDX_OPT=2 [2] Done H_NAME= [3] Done H_NAME_YOMI=%82%dd [4] Done H_NO_GENGO=H [5] Done H_NO_YEAR= [6] Done H_NO_TYPE=2 [7] Done H_NO_NO= [8] Done H_FILE_NAME=M29HO089 [9] Done H_RYAKU=1 [10]- Done H_CTG=1 [11]+ Done H_YOMI_GUN=1 [776]で、かたまってしまいます。CTRL+Cで中断しました。

その他の回答 (1)

  • mag_net
  • ベストアンサー率60% (6/10)
回答No.2

問題解決おめでとうございます。 #より後ろの文字列についてですが、元ページでページ内リンクのためにラベルを張っているらしく、オリジナルがすでに#000・・・という長いものでした。 元のページで既に決定されているので、 station702 さんが行ったようにソースを追うしかなさそうです・・・。

station702
質問者

補足

wget http://law.e-gov.go.jp/htmldata/M29/M29HO089.html 実行可能です。ありがとうございました。

関連するQ&A