締切済み

エクセルでURLからタイトルと本文を抽出するには？

2011/03/18 13:31

エクセルを使ってURLからタイトルと本文を抽出するにはどうすればいいのでしょうか？ A列にはURLを記入するとして、ＶＢＡを使ってB列にタイトル、C列に本文を抽出したいです。ちなみに、C列の本文は、全てではなく、200文字とか設定したいです。（C列は本文200文字のあとに「・・・」が入るようにしたいです）すいませんが、どなたか教えてください。よろしくお願いします。

torasan117
お礼率48% (44/91)

Visual Basic
回答数3
ありがとう数1

みんなの回答 （3）
専門家の回答

みんなの回答

Halical
ベストアンサー率8% (5/60)

2011/03/19 12:19 回答No.3

明らかに説明不足ですね。タイトル？本文？ブログでも抽出したいのでしょうか？ブログのXMLファイルを読み込みたいのなら「XMLDOM」というやり方があります。とりあえず、この質問は破棄して、回答する側の身になって質問文を書き直しましょう。

imogasi
ベストアンサー率27% (4737/17070)

2011/03/18 21:21 回答No.2

質問者は、どれぐらい（エクセル）ＶＢＡが出来るのか。その辺を考える必要があるだろう。やることは（１）ＷＥＢページの内容をコンピュター的に知る（捕まえる）（２）タイトルや、本文を抜き出す（選別する）方法（ロジック）（３）エクセルシートに書き出しの内、（３）しかエクセルＶＢＡの範囲ではない。ーー他ソフトとの連携などは、すこしぐらいエクセルＶＢＡが出来ても、歯が立たないはず（別物）インターネットでそのＷＥＢページを表示し、表示ーソースで表示されるような情報が、サーバーから送られてきて、インターネットエクスプローラー（ＷＥＢブラウザ）などが、ＨＴＭＬ文の約束に従って質問者のパソコンで見えているような文字・画像などに再現して見せている。（２）のこの中で、タイトルや本文と質問者が言っているものを抜き出すのは一般原理的には不可能だろう。ＨＴＭＬ文には＜ＴＩＴＬＥ＞や＜ＢＯＤＹ＞はあるが、これが意味的にタイトルであったり、本文である保証はない。ーー判らないからと、丸投げでこういうコーナーにすぐ聞くことはやめて、ＨＴＭＬ文の役割などを勉強すること。ＨＴＭＬはＷＥＢページの体裁（見てくれ）を整えることに重点が置かれている。その点から意味的重要な内容はここだと伝えるには不便で、他のマークアップ言語が工夫されている理由である。こういうことを勉強するのが先だ。難しいことを他人頼みでやろうとしすぎ。ーーただし、最近ＷＥＢ記事が充実し、インターネットを起動してＷＥＢページを送らせて、テキスト情報を掴むコードは調べれば直ぐ調べられる。少し勉強する人ならとっくに注目しているはず。例えば「ＶＢＡ　インターネット」などで照会して http://www.ken3.org/cgi-bin/group/vba_ie.asp や http://officetanaka.net/other/extra/tips02.htm などを参考に（後者で） Sub Sample() Dim Http, buf As String Set Http = CreateObject("MSXML2.XMLHTTP") Http.Open "GET", "http://www.officetanaka.net/other/index.htm", False Http.Send buf = StrConv(Http.ResponseBody, vbUnicode) Open "C:\sample.htm" For Output As #1 For i = 1 To 10 MsgBox Mid(buf, (i - 1) * 600 + 1, 600) Next i Close #1 Set Http = Nothing End Sub i = 1 To 10の１０は手抜きで見本を示すための例です。上記ＦｏｒＮｅｘｔの部分を、元のPrint #1, bufにすればテキストファイルに書き出せる。こういうテキストから本文やタイトルをどうして抜き出すのか、質問者のＵＲＬの場合で、その方法（ロジック）を文章でも表現できますか。出来ないだろう。

web2525
ベストアンサー率42% (1219/2850)

2011/03/18 16:34 回答No.1

>URLからタイトルと本文を抽出する HPアドレスから、ネット上のサイトのタイトルと本文を抽出? なんとなくやりたい事はわからなくもないが、現実問題難しいのでは? タイトルに関しては手段が無いわけではないページのタイトルはヘッダー情報に記載されているので、タイトルを抽出するためにはヘッダー情報を読み込めれば可能例： ※TELNETコマンドでページを取り込み、ヘッダー内の<TITLE>タグで囲まれた中身を抽出すれば可能※ 本文とは何を意味するかによって手段が大きく異なりますページによっては、WEBクエリーで目的の箇所だけ読み込む事は可能ですがページの作りによってその処理は変わってくるので、全てのサイトに適応する事はほぼ不可能たとえば www.yahoo.co.jp このページの本文ってどこを指しますか? >本文は、全てではなく、200文字とかテキストだけで構成されたページであれば可能でしょうが・はじめにバナー広告が来てたり・スクリプト処理だけが書かれていて、ページ本体は別の場所に有ったりこんな場合（ほとんどのサイトはこんな作りですが)何処を読み込むの? HTML構文に関して一度学習してから質問しなおされた方が良いかと思います