• ベストアンサー

XML(HTML)の処理について

じゃば初心者です。 WEB上のXML(HTML)をとってきて、一部だけを取得するプログラムを作りたいのですがうまくいきません。 SAXParserのメソッドに parser(InputStream obj) | Parser(URI uri) があります。 初めはParser(URI uri)でURLを直接指定したのですが、プロキシを通すことができないみたいでできませんでした。 parser(InputStream obj) の java.io.InputStream は HttpURLConnection のgetInputStream()メソッドから取ってくるようにしました。これでwww.yahoo.comなどのサイトで初めのタイトルとかは取得できるようにはなったのですが、途中で例外が出てとまってしまいます。これは文字コードがUnicodeでないことが理由の一つだと思います。 InputStreamの文字コードを変換するか、ほかのよい方法を教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • watapen
  • ベストアンサー率10% (5/48)
回答No.1

はじめまして。 SAXPerserを掛けるときはXMLの文法にそったものしかだめですよね?落ちてしまうのは<BR>タグや<??? nowrap>とかのせいではないでしょうか? 一度ローカルファイルに落として文法チェックをしてからXML形式に修正してからParseしたらどうでしょうか?

その他の回答 (1)

  • chi-kon
  • ベストアンサー率43% (58/132)
回答No.2

#01です。 でも著作権等には十分留意してくださいね。 Web上の著作権ってややこしいですからね。 ブラウザを作ってるというなら問題無いと思うんですけど、 データを加工するとなると、ちょっと問題になるかもしれません。

関連するQ&A