RSSからblog(ブログ)の本文を抽出したい
RSSからblogの本文を抽出するプログラムを
作りたいと思っています。
例えば、以下のようなRSSに対して
(省略部分があります。)
<?xml version="1.0" encoding="UTF-8" ?>
- <rdf:RDF xmlns:rdf="http://~>
+ <channel rdf:about="http://~">
- <item rdf:about="http://blog.livedoor.jp/~">
<title>ショッピング</title>
<link>http://blog.livedoor.jp/~</link>
<description>今日はとてもいい天気だったので…</description>
<dc:creator>shows</dc:creator>
<dc:date>2005-09-24T22:00:21+09:00</dc:date>
<dc:subject>ブログ</dc:subject>
- <content:encoded>
- <![CDATA[
<a href="http://image.blog.livedoor~">
</a>今日はいい天気だったので、<br>
ショッピングに出かけました<br>
<br>
本文略
<br>
新しいibookが欲しいなぁ~<br>
]]>
</content:encoded>
</item>
(以降略)
<content:encoded>のCDATAセクションの中の、
今日はいい天気だったので ~ 新しいibookが欲しいなぁ~
までがブログの本文なのでこれを抽出したいと思っています。
そこで、現在ではjavaを使ってDOMで抽出しようと試みているのですが、
こちらのサイト http://www.hellohiro.com/xmldom.htm
のHelloWorldDOMPageList.javaを参考にしてプログラムを作ったのですが、
title,link,descriptionの抽出は出来ましたが、
ブログ本文が記述されている、
<content:encoded> or <![CDATA[ 内の要素(データ)を取得できません。
どのような方法(プログラム)をすれば取得できるようになるでしょうか?
よろしくお願いします。
お礼
>>両方のサイトとも、そもそもRSS配信されていないので無理ではないですか。 そうなんですが、RSS配信されてなくても(URLの横にアイコンが出ていなくても)RSSクリエイター(http://rssc.dokoda.jp/)を使えばRSSをつくることがいくつかのサイトでできたので質問させていただきました。