• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:トラックバック先のURLのみ抽出したい(Excite・Sonetにて))

トラックバック先のURLのみ抽出したい(Excite・Sonetにて)

このQ&Aのポイント
  • トラックバック先のURLのみ抽出するために、HTMLの構造上の情報を除外するプログラムの改正方法を教えてください。
  • ExciteやSo-netのブログからトラックバック先のURLを抽出するプログラムにおいて、余計な情報が一緒に抽出されるため、抽出したいURLのみを取得する方法を教えてください。
  • HTMLの構造上の情報を除外してトラックバック先のURLのみを抽出するためのプログラムの改正方法を教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • BLUEPIXY
  • ベストアンサー率50% (3003/5914)
回答No.1

So-netは、試してませんけど・ public static String[] getTBAddrExcite(String urlString){ String addr=""; boolean flag=false; try{ URL url = new URL(urlString); InputStream input = url.openStream(); BufferedReader reader = new BufferedReader(new InputStreamReader(input)); String aLine; Pattern trackBack = Pattern.compile("Tracked from <A HREF=(http://.+?) TARGET=_NEW>"); while((aLine = reader.readLine())!=null){ if(aLine.indexOf("<DIV CLASS=COMMENT_LINE>") >=0){ flag=true; } else { if(flag && aLine.indexOf("Commented by ")>=0) break; } if(flag==false) continue; Matcher m = trackBack.matcher(aLine); while(m.find()){ addr+=m.group(1)+","; } } reader.close(); input.close(); } catch(MalformedURLException e){ e.printStackTrace(); } catch(IOException e){ e.printStackTrace(); } return addr.split(","); }

shows
質問者

お礼

ご回答ありがとうございました。 無事URLを抽出できました。

関連するQ&A