- ベストアンサー
特定のWEBサイトの情報をクロールしたいと思いますが、プログラミングの
特定のWEBサイトの情報をクロールしたいと思いますが、プログラミングの経験はありません。人に頼む以外で自分でできるようになるには、どのように勉強すればよいでしょうか。私自身、ITリテラシーは低くわなく、自作でPCを組み立てたり、PCトラブルを自分で調べて解決できるくらいのスキルはありますので、通信講座など広い範囲でアドバイスいただければ幸いです。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
目的に沿えるかどうかわかりませんが……書籍を1つ紹介します。 Spidering Hacks http://www.oreilly.co.jp/books/4873111870/ いきなり読むのは無理なので、まずはPerlの勉強ということになります。 (Perlの環境自体はお金をかけずに整えることができます) # 最初にすべきことは、プログラミング言語の選択かもしれませんね。
その他の回答 (2)
- notnot
- ベストアンサー率47% (4900/10358)
「スクレイピング」をキーワードに調べて見てください。ウェブページから、情報を「掻き取る」という意味です。 相手サイトの種類によって、難易度が異なります。 例1:新聞社サイトのトップページから新着ニュースを得たい。ログイン不要 HTMLデータを取得して、その内容を解析して望みのデータを得るだけです。 例2:SNSサイトにログインして、フレンド/マイミクの最新日記タイトルを得たい。 HTMLデータを取得して、その内容を解析して望みのデータを得る前に、ログイン処理とか、ページの遷移とか、Cookieの持ち回りとかの処理が必要です。 このあたりを全部手作りするのは大変なので、PerlやRubyだとWWW::Mechanizeという自動化パッケージを使います。 また、HTMLの解析も、簡単な場合は文字列検索で出来ますが、複雑な場合は、HTMLやXMLを解析するパッケージを使います。 言語としては、パッケージの利用を考えるとPerlかRubyですね。Pythonでも多分適したパッケージがあるかと思いますが、日本語の資料が少ないと思います。PerlがいいかRubyがいいかは過去にここでも何度も質問に出てますので、その回答を参考にしてください。 あるいは「Perl Mechanize」や「Ruby Mechanize」で検索すると多分サンプルプログラムがあるかと。両方眺めて、どちらかの言語を勉強してください。 やりたいことがこれだけなら、どちらを選んでもあとで後悔はないと思いますよ。 全く別のアプローチとしては、プログラムでIEを自動運転して、ページを取得する方法もあります。これは参考になるページが上記よりは少ないかもしれません。言語は、Perl Rubyの他に、VisualBasic(VB)とか、VBScript とか。
お礼
とても参考になりました。教えていただいたキーワードでいろいろ調べてみます。 ありがとうございました。
- oraora777
- ベストアンサー率20% (56/268)
>ITリテラシーは低くわなく・・・・スキルはありますので だったら http://www.google.co.jp/ ここが一番でしょう。
お礼
こんな本があるのですね。 ぜひ読んでみたい内容でしたので、 早速注文してみました。 ご紹介ありがとうございます。