• 締切済み

BCBで使えるHTMLパーサー、リンクの抽出

Borland C++Builderで使えるHTMLパーサーのVCLを探しています。海外では、THTMLParserなどを検索語にして調べると幾つかありましたが日本語が文字化けしたりして、調子よくありません。 http://www.dallas.net/~richardp/delphi/components/home.html 日本語の通るフリーのHTMLパーサーのVCLというのはご存知でしょうか。 また、実際にやりたいのは、ページから、 ・<TITLE>タグで囲まれたタイトルの抽出 ・<A HREF = URL>リンク文字列</A>  の、URL部分とリンク文字列のリストを得る ということなのですが、私の拙い知識では何度やってもうまく取り出すことができません。それでVCLでできないかなあと調子の良いことを考えています。こういった文字列解析の定石のようなコーディングはあるのでしょうか。 質問ばかりですみません。ご存知の方よろしくお願いいたします。

みんなの回答

  • bir
  • ベストアンサー率44% (11/25)
回答No.1

私も似たようなものを探していました。 VCLではありませんが、ANSI C++/ライブラリで書かれているHTMLパーサライブラリがデジリニアのページで公開されているのでご参考にされてはいかがでしょう。 私もダウンロードしただけでまだ試していないため何ができるのかまでは把握しておりません。すいません(^_^; URLのページのダウンロードのところにあります。

参考URL:
http://www.midl.co.jp/
Blogger
質問者

お礼

ご紹介ありがとうございました。 それからいろいろ苦労しましたが結局、パーサを自作して目的を遂げました。CppWebBrowserにQueryInterfaceしてiHTMLDocument2オブジェクトからソースを取り出すという方法もその後見つけました。しかし、BCBでCOM操作は複雑になりがちでまだ勉強中です。

関連するQ&A