- ベストアンサー
HTMLソースから検索エンジンの要約のように文章を抽出する方法
- HTMLソースから検索エンジンの要約のような文章を抽出する方法を調査しています。
- 検索エンジンで検索すると、質問するならOKWaveというQ&Aサイトが表示されます。
- OKWaveは120万人が参加し、質問に対して回答が得られるサイトです。どのような方法でHTMLソースから要約文章を抽出できるか教えてください。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
どんなページでも、検索結果に表示されている文章はdescriptionの中身ですよね? OKWAVEみたいな質問掲示板の中のページ(質問のページ)とかも、全部。 HTMLファイルとして生成する時に、質問文をdescriptionの中に埋め込んでいる から、検索結果に要約文として表示されているだけですよね 検索エンジンの検索結果に表示される文章はdescriptionの中身です 頼る・頼らないっつうか頼ってるんですよ 中身はサイト次第で、OKWAVEは質問内容を入れているというだけの話で。 OKWAVEとかはファイル生成時に質問内容をdescriptionに埋め込んでいるから 検索結果の要約文にも表示されているだけってことです descriptionに頼らずに要約文を抽出させるなら descriptionに変わる、何か目印をつけた部分に要約文を書いて 正規表現なりを使って抽出表示 ということになるんじゃないでしょうか
その他の回答 (1)
- koke29
- ベストアンサー率58% (114/196)
こんにちは 検索エンジンで表示される要約文は <meta name="description" content=" この中 "> に記載している文章が表示されているので これを取り出して表示すれば良いです 同じような質問・回答のやりとりをしているサイトがあったので 参考URLにはっておきますね 私も試してみたら、うまく抽出出来ました
お礼
ご回答ありがとうございます。 確かにdescriptionを抽出することはできたのですが、やはり、検索サイトの要約文といいますと PHPで検索 ------------------------------------------------------------ OKwave - HTMLソースから検索エンジンの要約のように文章を抽出したい ... PHPのfile_get_contents関数を使って抽出したいのですが、どのような ... ですのでPHPを使って抽出にはどのような方法があるでしょうか ------------------------------------------------------------ などと、トップページ以外はdescriptionに頼らず結果を表示しています。 全文検索システム等を使って、何か良い方法はないでしょうか?
お礼
正規表現等を使った抽出も視野に入れて、フリーの検索エンジンソースを漁ってみようかと思います。 ご回答ありがとうございました。