ベストアンサー

特定のWEBサイトの情報をクロールしたいと思いますが、プログラミングの

2010/01/04 01:27

特定のWEBサイトの情報をクロールしたいと思いますが、プログラミングの経験はありません。人に頼む以外で自分でできるようになるには、どのように勉強すればよいでしょうか。私自身、ITリテラシーは低くわなく、自作でPCを組み立てたり、PCトラブルを自分で調べて解決できるくらいのスキルはありますので、通信講座など広い範囲でアドバイスいただければ幸いです。

jalps
お礼率71% (20/28)

その他（プログラミング・開発）
回答数3
ありがとう数5

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

dda167
ベストアンサー率76% (55/72)

2010/01/04 08:55 回答No.1

目的に沿えるかどうかわかりませんが……書籍を1つ紹介します。 Spidering Hacks http://www.oreilly.co.jp/books/4873111870/ いきなり読むのは無理なので、まずはPerlの勉強ということになります。（Perlの環境自体はお金をかけずに整えることができます） # 最初にすべきことは、プログラミング言語の選択かもしれませんね。

質問者

お礼 2010/01/04 23:20

こんな本があるのですね。ぜひ読んでみたい内容でしたので、早速注文してみました。ご紹介ありがとうございます。

その他の回答 (2)

notnot
ベストアンサー率47% (4900/10358)

2010/01/04 19:31 回答No.3

「スクレイピング」をキーワードに調べて見てください。ウェブページから、情報を「掻き取る」という意味です。相手サイトの種類によって、難易度が異なります。例１：新聞社サイトのトップページから新着ニュースを得たい。ログイン不要　HTMLデータを取得して、その内容を解析して望みのデータを得るだけです。例２：SNSサイトにログインして、フレンド/マイミクの最新日記タイトルを得たい。　HTMLデータを取得して、その内容を解析して望みのデータを得る前に、ログイン処理とか、ページの遷移とか、Cookieの持ち回りとかの処理が必要です。　このあたりを全部手作りするのは大変なので、PerlやRubyだとWWW::Mechanizeという自動化パッケージを使います。また、HTMLの解析も、簡単な場合は文字列検索で出来ますが、複雑な場合は、HTMLやXMLを解析するパッケージを使います。言語としては、パッケージの利用を考えるとPerlかRubyですね。Pythonでも多分適したパッケージがあるかと思いますが、日本語の資料が少ないと思います。PerlがいいかRubyがいいかは過去にここでも何度も質問に出てますので、その回答を参考にしてください。あるいは「Perl Mechanize」や「Ruby Mechanize」で検索すると多分サンプルプログラムがあるかと。両方眺めて、どちらかの言語を勉強してください。やりたいことがこれだけなら、どちらを選んでもあとで後悔はないと思いますよ。全く別のアプローチとしては、プログラムでIEを自動運転して、ページを取得する方法もあります。これは参考になるページが上記よりは少ないかもしれません。言語は、Perl Rubyの他に、VisualBasic(VB)とか、VBScript とか。

質問者