- ベストアンサー
HyperEstrainerでfetchが0、ignoredばかり表示
- Hyper Estrainerを使用してサイト内検索を行う際に、fetchが0、ignoredばかり表示される問題が発生しています。
- サーバを立ち上げている環境は XP sp2, xampp1.7.2(apache2.2.12, php5.3, mysql5.1.37,mod_perl/2.0.4 Perl/v5.10.0 ), mediawiki1.15.1です。
- 問題の解決方法をご教授いただける方がいらっしゃいましたら、お知らせください。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
MediaWikiは HTTP の 301 Moved Permanently でトップページに飛ばしています。これが「ignored: 301」の301の意味。 例) http://ja.wikipedia.org/ ↓301 HTTP/1.1 301 Moved Permanently http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8 で、estwaver のソースを確認したところ基本的に200 OKの時以外は何もしない(正確には304, 400などでも処理するけど今回は無関係)ので、301のリダイレクトの先には移動しないようです。 ということで、http://localhost/mediawiki/にブラウザでアクセスするとどこかにリダイレクトされると思うので、飛ばされた先のURLを_confに設定するとうまく行くかもしれません。 上で「かもしれない」と濁したのは、MediaWikiが301を利用してページを飛ばしていた場合に正しく登録されない可能性があるからです。そこはMediaWikiに詳しくないのでよくわかりません。
その他の回答 (1)
- uwi
- ベストアンサー率74% (55/74)
_confの設定ミスが一番疑わしいです。 とりあえず loglevel: 1 にしてデバッグ情報を出力するようにしてみてはどうでしょうか。
補足
loglevel1にしてみましたが、何かわかりますでしょうか。。 >estwaver crawl -revcont waver 2010-02-01T13:33:35Z INFO DB-EVENT: status: name=waver\_index dnum=0 wnum=0 fsiz=9259062 crnum=0 csiz=0 dknum=0 2010-02-01T13:33:35Z INFO crawling started (continue) 2010-02-01T13:33:35Z INFO fetching: 0: http://localhost/mediawiki/ 2010-02-01T13:33:35Z INFO ignored: 301: http://localhost/mediawiki/ 2010-02-01T13:33:35Z DEBUG seed keywords: 2010-02-01T13:33:35Z DEBUG not modified: http://localhost/mediawiki/ 2010-02-01T13:33:35Z INFO waiting for threads: 0 2010-02-01T13:33:35Z INFO crawling finished 2010-02-01T13:33:35Z INFO DB-EVENT: closing: name=waver\_index dnum=0 wnum=0 fsiz=9259062 crnum=0 csiz=0 dknum=0 2010-02-01T13:33:35Z INFO finished successfully 別ディレクトリを作成してestcmdでローカルで収集した際は問題なく検索できたので、このファイルが原因だとは思うのですが。。 _conf で変更した内容は下記2つのみです。 seed: 1.0|http://localhost/mediawiki/ allowrx: ^http://localhost/mediawiki/ よろしくお願いします。
お礼
リダイレクト先をパスにする事で無事クロールする事ができました、ありがとうございました!