ベストアンサー

XML(HTML)の処理について

2003/05/21 15:24

じゃば初心者です。 WEB上のXML（HTML）をとってきて、一部だけを取得するプログラムを作りたいのですがうまくいきません。 SAXParserのメソッドに parser(InputStream obj) | Parser(URI uri) があります。初めはParser(URI uri)でURLを直接指定したのですが、プロキシを通すことができないみたいでできませんでした。 parser(InputStream obj) の java.io.InputStream は HttpURLConnection のgetInputStream()メソッドから取ってくるようにしました。これでwww.yahoo.comなどのサイトで初めのタイトルとかは取得できるようにはなったのですが、途中で例外が出てとまってしまいます。これは文字コードがUnicodeでないことが理由の一つだと思います。 InputStreamの文字コードを変換するか、ほかのよい方法を教えてください。

qutto

qutto
お礼率48% (40/83)

Java
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

watapen

watapen
ベストアンサー率10% (5/48)

2003/05/21 22:23 回答No.1

はじめまして。 SAXPerserを掛けるときはXMLの文法にそったものしかだめですよね？落ちてしまうのは<BR>タグや<??? nowrap>とかのせいではないでしょうか？一度ローカルファイルに落として文法チェックをしてからXML形式に修正してからParseしたらどうでしょうか？

その他の回答 (1)

chi-kon

chi-kon
ベストアンサー率43% (58/132)

2003/05/26 16:59 回答No.2

#01です。でも著作権等には十分留意してくださいね。Ｗｅｂ上の著作権ってややこしいですからね。ブラウザを作ってるというなら問題無いと思うんですけど、データを加工するとなると、ちょっと問題になるかもしれません。

関連するQ&A

注目のQ&A

カテゴリ

[技術者向] コンピューター
- プログラミング・開発

カテゴリ一覧を見る

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

職業から探して質問する

専門家登録