- ベストアンサー
タグをとるのに、SAX
htmlのソースからタグを取り除くのに saxを使えばよいといわれたのですが、 これってXMLのためのものですよね? htmlでもできるんですか? たしかhtml用のクラス?パッケージ? どちらかわすれましたが、あったような気がする のですが、 お願いします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
XMLもHTMLもタグ付きテキストですからSAXもしくはDOMでparseすれば属性も要素も取得可能です。 w3cで定義されたタグなのか、独自やDTDで定義されたタグなのかの違いだけです。 パッケージはSUNのページにJAXPがありますのでダウンロードしてclasspathを通してください。 詳しくはJAXPのjavadocを参照してください。 注意としては解析するHTMLのタグは入れ子になっていないとか、ちゃんと閉じられていなければならなかったかと思います。XMLでは必ず閉じる物ですから。ちょっと記憶が定かでないのですが。 あと、やりようによってはXSLでタグを取ることも可能ですね。
その他の回答 (1)
- kacchann
- ベストアンサー率58% (347/594)
回答No.2
>たしかhtml用のクラス?パッケージ? >どちらかわすれましたが、あったような気がする ParserDelegator
質問者
お礼
ありがとうございます。
お礼
ありがとうございます。