- ベストアンサー
URLの抜きだしをしたいです。
Cygwinを使用しています。あるディレクトリ以下のすべてのHTMLファイルから、リンクされているURLを抜きだしてテキストファイルに出力したいのですが、 grep -r 'href="http' ディレクトリ とやってURLをふくむ行を抜きだしたあと、どうすればいいのか分からなくなってしまいました。sedやawkを使えばできるかと思っているのですが・・・。 初歩的な質問で申し訳ありませんが、よろしくお願いしますm(_ _)m
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
一行にひとつのリンクしかないなら、コマンドラインで $ cat ファイル名 | tr 'A-Z' 'a-z' | grep "href=" | sed -e 's/[^\n]*href=["'\'']//' | sed -e 's/["'\'' >][^\n]*//' > 出力ファイル名 たとえばこんな感じ。
その他の回答 (1)
noname#86752
回答No.1
ファイルにリダイレクトしましょう。 grep -r 'href="http' ディレクトリ > url.txt とやれば、grepの結果がurl.txtというテキストファイルに吐き出されます。 あとはviやらlessやらで見ることができます。
質問者
お礼
あ、リダイレクトは知っていました。 不要なタグなどを除去し、URLだけの状態にしたかったんです。言葉足らずで申し訳ありません。
お礼
sedでURL以外のところを消す、という方法でしょうか。 それでやってみます。ありがとうございます。