RSSからblog(ブログ)の本文を抽出したい
RSSからblogの本文を抽出するプログラムを
作りたいと思っています。
例えば、以下のようなRSSに対して
(省略部分があります。)
<?xml version="1.0" encoding="UTF-8" ?>
- <rdf:RDF xmlns:rdf="http://~>
+ <channel rdf:about="http://~">
- <item rdf:about="http://blog.livedoor.jp/~">
<title>ショッピング</title>
<link>http://blog.livedoor.jp/~</link>
<description>今日はとてもいい天気だったので…</description>
<dc:creator>shows</dc:creator>
<dc:date>2005-09-24T22:00:21+09:00</dc:date>
<dc:subject>ブログ</dc:subject>
- <content:encoded>
- <![CDATA[
<a href="http://image.blog.livedoor~">
</a>今日はいい天気だったので、<br>
ショッピングに出かけました<br>
<br>
本文略
<br>
新しいibookが欲しいなぁ~<br>
]]>
</content:encoded>
</item>
(以降略)
<content:encoded>のCDATAセクションの中の、
今日はいい天気だったので ~ 新しいibookが欲しいなぁ~
までがブログの本文なのでこれを抽出したいと思っています。
そこで、現在ではjavaを使ってDOMで抽出しようと試みているのですが、
こちらのサイト http://www.hellohiro.com/xmldom.htm
のHelloWorldDOMPageList.javaを参考にしてプログラムを作ったのですが、
title,link,descriptionの抽出は出来ましたが、
ブログ本文が記述されている、
<content:encoded> or <![CDATA[ 内の要素(データ)を取得できません。
どのような方法(プログラム)をすれば取得できるようになるでしょうか?
よろしくお願いします。
お礼
回答ありがとうございます。 最初RSSの意味が全く分からないときそこを見られるのは何を探っているのだろうとなんとなく気味が悪かったんですが、最近はRSSについて勉強もしていて、 namnam6838さんのいわれる通りだとすると、 私のブログの更新をキャッチしようとするプログラムの足跡ということで、 むしろ喜ばしいことなのですね。