getAttributeによるHTMLのタグ抽出について
web上にあるHTMLで書かれた文書から、タグ別に抽出しようと思っています。以下にあるのはプログラムの一部です。
<a href~のタグだときちんと抽出できるのですが、<img src~から始まるタグでは抽出できなかったのです。どこがいけないのでしょうか?
よろしくお願いします。
.
.
.
public void handleStartTag(HTML.Tag tag, MutableAttributeSet attr, int pos) {
if (tag.equals(HTML.Tag.A)) {
href[i] = (String) attr.getAttribute(HTML.Attribute.HREF);
i++;
}
else if (tag.equals(HTML.Tag.IMG)) {
src[j] = (String) attr.getAttribute(HTML.Attribute.SRC);
j++;
}
else {
}
}
.
.
.
お礼
natural様 ありがとうございました。 大変助かりました。 自作CGI使用が許可されているサーバが社内にありますので もう少し考えてみます。 yuntaro76