• 締切済み

htmlの検索と解析

ホームページやBlogを自分でつくっている人は非常に多くいますが、 特定の志向をもったサイトとデザインの相関を調べてみたいと思っています。 そこで、ホームページやblogを指定されている背景色で分類したいと考えたのですが。 htmlのタグやCSSを解析することで背景色のデータだけを抜き出す ようなことを考えています。 (1)検索エンジンの検索結果のリンクをたどって (2)取得したhtmlなどを解析して (3)背景色を抜き出す ような作業をある程度自動で行うためのツールや ツールを作るための方法としては、どんなものが いいでしょうか? 例えば、htmlをリンクを一括ダウンロードするようなツールで htmlを収集して、それらのhtmlをgrepなどで解析したらいいかと 思うのですが・・・・ (考えてみたらメールアドレスを収集するロボットみたいな  ことをしたいようにも思えるのですが) 検索⇒データ分析⇒解析をできるだけ自動的に行うには どういう方法がいいでしょうか。 なにかアイディアや、方法に関して示唆をいただければ 幸いです。

みんなの回答

  • BLUEPIXY
  • ベストアンサー率50% (3003/5914)
回答No.1

例えば、VBScriptからIEを使って以下のように背景色を取り出すことができます。(currentStyleを使っているのがミソ) CreateObject("InternetExplorer.Application") を使えば、VBScriptに限らず適当なマイクロソフト系のソフトで同じように処理できます '--------------------------------------------------------------- Dim IE Set IE = WScript.CreateObject("InternetExplorer.Application") IE.Navigate ("http://blog.livedoor.jp/nao_oikawa/") While IE.busy: Wend While IE.Document.readyState <> "complete": Wend MsgBox(IE.Document.body.currentStyle.backgroundColor) IE.quit

keng001jp
質問者

お礼

リプライがおそくなりましてすいませんでした。 テキスト処理することにこりかたまっていて VBScriptとは思い至りませんでした。 大変参考になりました。 ありがとうございました。

関連するQ&A