• ベストアンサー

サーバ内のファイルがリンクされているページを検索

ホームページの管理を引き継いだ者です。 ホームページサーバ内にアップ日が古いPDFファイルがあります。 リンクされているページ自体が削除されている可能性が高いので、もしどこのページにもリンクされていないならサーバから削除したいと思っています。 サーバ上のリンクされているHTMLファイルの有無を検索する方法はありますか? ※HTMLファイルは、サーバ上にしかありません。 ※PDFファイル名で検索をかけたらPDFファイルそのものがヒットしてしまい、かつリンクされているページがあるファイルも同様の結果でした。

質問者が選んだベストアンサー

  • ベストアンサー
  • ORUKA1951
  • ベストアンサー率45% (5062/11036)
回答No.2

>ページ更新の際は該当HTMLファイルをローカルに落とし、テキストエディタで手打ちで書き換え、再アップするという手段で更新しています。  なら、FTPソフトがあるのでしょうから、すべてダウンロードしてくれば良いです。CMSなど動的に作成するものがないのでしたら、ダウンロードしてから、grepなりで。  Windows用のgrepもあります。  まあ、テキストエディタで検索機能を持つものもあります。たとえばEmEditor--これでフォルダー内を検索で該当するファイルにリンクしているファイルをすべて拾い出してしまえば良いです。文書内に、href="[^"]*abcdefg.pdf" を正規表現で探す。    

bari_saku
質問者

お礼

大変お礼が遅くなり、申し訳ございません。 仰る方法で地道に探していこうと思います。 ありがとうございました。

その他の回答 (1)

  • t_ohta
  • ベストアンサー率38% (5238/13705)
回答No.1

HTMLファイル一式にgrepをかけて、そのPDFファイルのファイル名が記載されているHTMLファイルが無いか探す。 あとは、ホームページアクセスログから、そのPDFファイルへのアクセスの有無を調査。 PDFファイルへのアクセスが見つかれば、どこかからリンクされている可能性あり。 ログにリファラーが出力されていれば参照元が判明します。

bari_saku
質問者

お礼

ご回答ありがとうございます。 >HTMLファイル一式にgrepをかけて、そのPDFファイルのファイル名が記載されているHTMLファイルが無いか探す。 全てをDLしてローカルで検索するということでしょうか? すみません…その「一式」がサーバ上にしかない状態です。 また現在ブラックボックス状態のエリアもあり、どこまでDLすれば「一式」になるのかも不明です。 任意サーバ内と言いますか任意ドメイン以下のHTMLファイル全てを検索するのは難しいでしょうか? >あとは、ホームページアクセスログから、そのPDFファイルへのアクセスの有無を調査。 こちらもすみません、ログは取得していません。 ログの取得は行なったことがないのですが、特定のソフトがなくても可能でしょうか? (借りているサーバの会社に確認したところ、コントロールパネルからアクセスログをDLできるが、最短で2~3日、最長でも3~4週間分しか取得できないとのことでした) ※ページ更新の際は該当HTMLファイルをローカルに落とし、テキストエディタで手打ちで書き換え、再アップするという手段で更新しています。  ちなみに、前担当者とは連絡が取れない状態です。資料もとくにありません。

関連するQ&A