• ベストアンサー

タグをとるのに、SAX

htmlのソースからタグを取り除くのに saxを使えばよいといわれたのですが、 これってXMLのためのものですよね? htmlでもできるんですか? たしかhtml用のクラス?パッケージ? どちらかわすれましたが、あったような気がする のですが、 お願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • Te-Sho
  • ベストアンサー率52% (247/472)
回答No.1

XMLもHTMLもタグ付きテキストですからSAXもしくはDOMでparseすれば属性も要素も取得可能です。 w3cで定義されたタグなのか、独自やDTDで定義されたタグなのかの違いだけです。 パッケージはSUNのページにJAXPがありますのでダウンロードしてclasspathを通してください。 詳しくはJAXPのjavadocを参照してください。 注意としては解析するHTMLのタグは入れ子になっていないとか、ちゃんと閉じられていなければならなかったかと思います。XMLでは必ず閉じる物ですから。ちょっと記憶が定かでないのですが。 あと、やりようによってはXSLでタグを取ることも可能ですね。

Judau_MSZ-010
質問者

お礼

ありがとうございます。

その他の回答 (1)

  • kacchann
  • ベストアンサー率58% (347/594)
回答No.2

>たしかhtml用のクラス?パッケージ? >どちらかわすれましたが、あったような気がする ParserDelegator

Judau_MSZ-010
質問者

お礼

ありがとうございます。

関連するQ&A