• ベストアンサー

HTMLパーサがしたいのですが、困っています

とあるサイトの解析(許可はあるので大丈夫です)をしたいと考えているのですが、 手作業でソースをみたりしたところ ドメイン名/thread/ 24桁の16進数 で書かれています。 15桁の16進数はランダムなようなのですが、 1 threadずつ、取得していきたいです こういう場合どういう方法で取得したらいいでしょうか? 回答よろしくお願いします 開発環境は解析しやすいものを使おうと考えています。 メイン環境は  OS Win7 pro mem 24G CPU i7 です。よろしくお願いします

質問者が選んだベストアンサー

  • ベストアンサー
  • yambejp
  • ベストアンサー率51% (3827/7415)
回答No.1

>1 threadずつ、取得していきたいです >こういう場合どういう方法で取得したらいいでしょうか? スレッドの番号が簡単に予測がつくならいいですが、 とりあえずロジックがわからないのであれば、ひとつひとつのスレッドを 予測しながら抽出するのは厳しい気がします。 場合によっては外部アクセスを助けるAPIを公開しているものもあるでしょうから 公開されている管理者に確認するのが妥当 もしどうしてもというなら、とりあえずどこかのスレッドにたどりつくとこまで 頑張って、そこに貼ってあるリンクを繰り返したどっていくクローラを つくるのも手かも。

tenku65820
質問者

お礼

ありがとうございます! apiがあるようなので試してみようかと思います

関連するQ&A