• ベストアンサー

Javascriptを含むHTML構文解析プログラム

JavaとJavascriptどちらに質問すべきか迷ったのですが こちらで質問させていただきます。 Javascriptを含むWebサイトのHTMLの構文を解析して、 そのサイトに表示されるデータなどを収集するjavaプログラムを作りたいんです。 Googleなどでいろいろ検索して調べたのですが、 このようなことを解説してくれているサイトが見当たらなかったので 解説してくれているサイトだとか書籍などを紹介していただきたいのです。 また、どのように作成していけばいいのか、大まかな流れだとかヒントになるようなことを教えていただいてもうれしいです。 Javascript自体は現在勉強中なレベルなのでまずはそこからではあるんですが・・・。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

>どのように作成していけばいいのか、大まかな流れ どうも Javascript 以前に HTML やWebブラウザといったWebの基礎技術の理解が不足しているように思われます。 「Javascript自体は現在勉強中」というのは「Javascriptの役割はすでに理解していて、実際の言語仕様などを現在勉強中」という意味に自分は誤解してしまったようです。 いきなり Java のコードを書こうとするよりまずは Web の基礎技術を学んでみてください。 Webブラウザはまさに「Javascriptを含むWebサイトのHTMLの構文を解析して、そのサイトに表示されるデータなどを収集するプログラム」ですから、 ブラウザが何をしているのかわかれば、ご自分のやりたいことを実現する手段は見えてきます。 そうなったらあとは必要なパーサやスクリプトエンジンといったライブラリを用意するだけです。 そのプログラムが具体的に何をしたいのか示されていないので、これ以上具体的な流れはお答えする方法がありません。同様の理由で、 >上記のリンク先の文書に書いてあるような解析方法でいいのでしょうか? という質問の答えがわかるのは、質問者のかただけです。

その他の回答 (2)

回答No.2

どの程度使えるものなのかは自分は知らないのですが、 JavaSE には標準でHTML パーサが搭載されているようです。 http://java.sun.com/javase/ja/6/docs/ja/api/javax/swing/text/html/parser/package-summary.html また、「HTML パーサ」というキーワードで検索してみると、以下のようなものが見つかりました。 http://htmlparser.sourceforge.net/ また、Java向けのJavascriotエンジンとしてはRhinoががあります。 これはSun の JavaSE6 には標準で搭載されるようになりました。 http://www.mozilla.org/rhino/ http://java.sun.com/javase/ja/6/docs/ja/technotes/guides/scripting/index.html これだけ揃っていればHTMLの解析は難しくは内容に思います。

sdfas
質問者

お礼

回答ありがとうございます。 またしても返事が遅れて申し訳ありません。 RhinoはJavaScriptのコードをJavaのクラスへと変換するものということですが、 これを利用してJavascriptの解析をどのようにすればいいんでしょうか・・・? 質問ばかりですいません。

  • SAYKA
  • ベストアンサー率34% (944/2776)
回答No.1

?? DOM辺りで調べたらそれなりの情報が得られるんじゃないかな 後は完全にレンダリングさせた結果を得られる方法を探すとか。

sdfas
質問者

お礼

回答ありがとうございます。 返事が遅くなって申し訳ありません。 いろいろDOMを調べてみたのですが、 http://sel.ist.osaka-u.ac.jp/~lab-db/betuzuri/archive/375/375.pdf おおまかな流れとしては、 上記のリンク先の文書に書いてあるような解析方法でいいのでしょうか?

関連するQ&A