- ベストアンサー
トラックバック先のURLのみ抽出したい(Excite・Sonetにて)
- トラックバック先のURLのみ抽出するために、HTMLの構造上の情報を除外するプログラムの改正方法を教えてください。
- ExciteやSo-netのブログからトラックバック先のURLを抽出するプログラムにおいて、余計な情報が一緒に抽出されるため、抽出したいURLのみを取得する方法を教えてください。
- HTMLの構造上の情報を除外してトラックバック先のURLのみを抽出するためのプログラムの改正方法を教えてください。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
So-netは、試してませんけど・ public static String[] getTBAddrExcite(String urlString){ String addr=""; boolean flag=false; try{ URL url = new URL(urlString); InputStream input = url.openStream(); BufferedReader reader = new BufferedReader(new InputStreamReader(input)); String aLine; Pattern trackBack = Pattern.compile("Tracked from <A HREF=(http://.+?) TARGET=_NEW>"); while((aLine = reader.readLine())!=null){ if(aLine.indexOf("<DIV CLASS=COMMENT_LINE>") >=0){ flag=true; } else { if(flag && aLine.indexOf("Commented by ")>=0) break; } if(flag==false) continue; Matcher m = trackBack.matcher(aLine); while(m.find()){ addr+=m.group(1)+","; } } reader.close(); input.close(); } catch(MalformedURLException e){ e.printStackTrace(); } catch(IOException e){ e.printStackTrace(); } return addr.split(","); }
お礼
ご回答ありがとうございました。 無事URLを抽出できました。