- ベストアンサー
htmlの<head>の中にある<link ~>の情報を取得するには?
BlogのRSS情報を取得するために、htmlの<head>の中の <link rel="alternate"... /> の情報をJavaのプログラムから取得しようとしています。 PerlですとHTML:TokeParserやHTML::RSSAutodiscoveryみたいなものもあるようですが、Javaで何かないか探しています。 どなたかご存知ありませんでしょうか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
NekoHTML(扱いやすい) かParserDelegator
その他の回答 (1)
- sha-girl
- ベストアンサー率52% (430/816)
回答No.1
正規表現でマッチした部分を抜き出すか XMLパーサーを使ったのでは駄目ですか?
質問者
お礼
お返事が遅れてスミマセン。 上記にあるような事情でお礼が今になってしまいました。 今回はHTMLをパースするので、単純にXMLパーサを使うとエラー処理が大変で、それでツールを探していました。 上記のようにとりあえずは解決いたしました。 ありがとうございました。
お礼
お礼が遅くなって申し訳ございません。 ご紹介頂いたものをテストしてからお返事をしようと思っていたのですが、忙しかったり手こずったりで今になってしまいました。 NekoHTMLでいこうかといろいろ試したのですが、SAXで扱おうとしてそちらで手こずってしまい、結局 「HTMLParser」 を見つけてそちらで一応目的は達しました。 また時間のあるときにNekoHTMLをじっくりと研究したいと思います。 ありがとうございました。