- 締切済み
wgetの正規表現について
どなたかご教授下さい。linux初心者です。 気象庁の地震速報の詳細ページを日別に自動で入手したいのです。 たとえば今日ならば、ひとつのファイルは http://www.jma.go.jp/jp/quake/20110612112208391-121117.html ...112208391-121117が発生時刻と発表時刻となるようなので 規則性がありません。そこで: $ wget http://www.jma.go.jp/jp/quake/20110612\d{9}-\d{6}.html とやったのですが; --2011-06-12 12:58:36-- http://www.jma.go.jp/jp/quake/20110612d%7B9%7D-d%7B6%7D.html Resolving www.jma.go.jp (www.jma.go.jp)... 124.40.39.100 Connecting to www.jma.go.jp (www.jma.go.jp)|124.40.39.100|:80... connected. HTTP request sent, awaiting response... 404 Not Found 2011-06-12 12:58:36 ERROR 404: Not Found. となってしまいます。 これはwgetの正規表現がおかしいのでしょうか?
- みんなの回答 (5)
- 専門家の回答
みんなの回答
- dscripty
- ベストアンサー率51% (166/325)
回答No.5
- astronaut
- ベストアンサー率58% (303/516)
回答No.4
- kmee
- ベストアンサー率55% (1857/3366)
回答No.3
- tux_the_penguin
- ベストアンサー率42% (69/163)
回答No.2
- localica
- ベストアンサー率52% (202/385)
回答No.1
お礼
ありがとうございました。正規表現をdosのワイルドカードと誤解してしまい、ファイル名が不明でも規則に従ってwget出来る、と誤解していました。 unixは勉強し始めたばかりで、皆さんに迷惑をかけてしまいました。あれから自力でスクリプトを書いて(下記)みたのですが、やはり[ANo.4]が綺麗ですね。大変勉強になりました。 #(1)気象庁ファイルの抜き出し wget http://www.jma.go.jp/jp/quake/quake_local_index.html #(2)特定月日の行だけ抜く awk '/20110612/ {print $0}' quake_local_index.html > quake.log #(3)html部分だけ抜く $ awk '{print substr($0,25,30)}' quake.log > add_quake.log #(4)シェルスクリプト作成 cat add_quake.log | awk '{print "wget http://www.jma.go.jp/jp/quake"$1}' > jikko.sh #(5)実行 sh jikko.sh