- ベストアンサー
Javascriptを含むHTML構文解析プログラム
JavaとJavascriptどちらに質問すべきか迷ったのですが こちらで質問させていただきます。 Javascriptを含むWebサイトのHTMLの構文を解析して、 そのサイトに表示されるデータなどを収集するjavaプログラムを作りたいんです。 Googleなどでいろいろ検索して調べたのですが、 このようなことを解説してくれているサイトが見当たらなかったので 解説してくれているサイトだとか書籍などを紹介していただきたいのです。 また、どのように作成していけばいいのか、大まかな流れだとかヒントになるようなことを教えていただいてもうれしいです。 Javascript自体は現在勉強中なレベルなのでまずはそこからではあるんですが・・・。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
>どのように作成していけばいいのか、大まかな流れ どうも Javascript 以前に HTML やWebブラウザといったWebの基礎技術の理解が不足しているように思われます。 「Javascript自体は現在勉強中」というのは「Javascriptの役割はすでに理解していて、実際の言語仕様などを現在勉強中」という意味に自分は誤解してしまったようです。 いきなり Java のコードを書こうとするよりまずは Web の基礎技術を学んでみてください。 Webブラウザはまさに「Javascriptを含むWebサイトのHTMLの構文を解析して、そのサイトに表示されるデータなどを収集するプログラム」ですから、 ブラウザが何をしているのかわかれば、ご自分のやりたいことを実現する手段は見えてきます。 そうなったらあとは必要なパーサやスクリプトエンジンといったライブラリを用意するだけです。 そのプログラムが具体的に何をしたいのか示されていないので、これ以上具体的な流れはお答えする方法がありません。同様の理由で、 >上記のリンク先の文書に書いてあるような解析方法でいいのでしょうか? という質問の答えがわかるのは、質問者のかただけです。
その他の回答 (2)
- hirusagari
- ベストアンサー率64% (20/31)
どの程度使えるものなのかは自分は知らないのですが、 JavaSE には標準でHTML パーサが搭載されているようです。 http://java.sun.com/javase/ja/6/docs/ja/api/javax/swing/text/html/parser/package-summary.html また、「HTML パーサ」というキーワードで検索してみると、以下のようなものが見つかりました。 http://htmlparser.sourceforge.net/ また、Java向けのJavascriotエンジンとしてはRhinoががあります。 これはSun の JavaSE6 には標準で搭載されるようになりました。 http://www.mozilla.org/rhino/ http://java.sun.com/javase/ja/6/docs/ja/technotes/guides/scripting/index.html これだけ揃っていればHTMLの解析は難しくは内容に思います。
- SAYKA
- ベストアンサー率34% (944/2776)
?? DOM辺りで調べたらそれなりの情報が得られるんじゃないかな 後は完全にレンダリングさせた結果を得られる方法を探すとか。
お礼
回答ありがとうございます。 返事が遅くなって申し訳ありません。 いろいろDOMを調べてみたのですが、 http://sel.ist.osaka-u.ac.jp/~lab-db/betuzuri/archive/375/375.pdf おおまかな流れとしては、 上記のリンク先の文書に書いてあるような解析方法でいいのでしょうか?
お礼
回答ありがとうございます。 またしても返事が遅れて申し訳ありません。 RhinoはJavaScriptのコードをJavaのクラスへと変換するものということですが、 これを利用してJavascriptの解析をどのようにすればいいんでしょうか・・・? 質問ばかりですいません。