• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:ブログのHTMLからトラックバックをしたブログのURLの抽出(URLの重複抽出を避けたい))

ブログのHTMLからトラックバックURLを抽出する方法とは?

このQ&Aのポイント
  • ブログのHTMLからトラックバックをしたブログのURLを抽出する方法について教えてください。
  • 特に、同じURLが重複して出力されないようにする方法が知りたいです。
  • 楽天などの特定のブログでは、同じURLが重複している場合があるので、その対策方法も教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • BLUEPIXY
  • ベストアンサー率50% (3003/5914)
回答No.1

データを取り出している間には、現在格納しつつあるものが重複しているかどうかわからないが、格納した結果は重複しないものであるということを保証するような場合は、格納するものとしてSetを使います。 サンプル: import java.util.*; class Sample { public static void main(String args[]){ String data[] = {"abc","EFG","abc","ZZZ","efg"}; TreeSet<String> aSet = new TreeSet<String>(); for(String str : data) aSet.add(str); for(String str : aSet){ System.out.println(str); } } } サンプルでは、重複しているモノがあるデータをSetに追加していますが、重複されているものは、重複して追加されません。 そこで、元のプログラムで、 String[]を返していますが、 TreeSet<String>を返す様にし >String addr=""; を TreeSet<String> addr = new TreeSet<String>(); にして >addr+=m.group(1)+","; を addr.add(m.group(1)); にして return addr; にすればいいと思います。

shows
質問者

お礼

ご回答ありがとうございます。 分かりやすい説明で理解が深まりました。