締切済み

サイトからソースの取得した後について。

2007/03/01 21:25

サイトからソースを取得することはできるのですが、そのソースからほしいデータを抽出するうまいやり方がわかりません。具体的には http://table.yahoo.co.jp/t?c=2006&a=5&b=8&f=2006&d=11&e=13&g=w&s=7203.t&y=0&z=7203.t ↑のようなサイトからデータの部分だけをメモ帳に移したいです。どのようにすればいいですか? ちなみに今は strtok 関数を使って無理やりアルファベットを取り除いていますが、エラーが多いです。

mozukux382
お礼率40% (2/5)

C・C++・C#
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

みんなの回答

Oh-Orange
ベストアンサー率63% (854/1345)

2007/03/01 22:11 回答No.1

★文字列を検索して解読するしかないと思います。・アルゴリズムとしては、　(1)『<td>』を検索します。→strpbrk関数で検索。　(2)見つかったポインタに +11 を加えれば、『<td>』に続くデータの先頭位置になります。　(3)(2)のデータの先頭から『<』文字までを抽出します。　　『<』文字をNULL文字に書き換えれば、データの先頭から普通の文字列として扱えます。　(4)(3)のデータの末尾から +1 の位置より、『<td>』を再検索します。→(1)へジャンプ・上記を繰り返せば、TABLE タグのデータを取り出せます。・あと途中に『』と『』の部分があるので『<td>』を検索した後にポインタを +11 して　『』文字列の先頭の場合は『』をスキップします。→ポインタを +3 進める。・後ろにある『』は『<』文字としてデータの末尾としているので(3)と同じです。・HTMLソースを行単位で処理しても良いし、全てをメモリに読み込んで検索しても良いでしょう。・以上。おわり。→行単位で文字列を解読しましょう。

質問者