• ベストアンサー

Namazuで検索できるシステムについて

サークルのメンバーで使用するよていのデータベースについて悩んでいます。ご存知の方がいらっしゃいましたら教えてください。データベースの検索システムは、Namazuを使用することになると思います。 検索させたい内容ですが、対象は、PDFファイルです。このPDFにもいくつかパターンがあります。 1)メールのメッセージをテキスト形式のPDFにしたもの 2)広報誌などの切り抜きを自分たちで利用するためにスキャンしてPDFにしたもの 3)IllustratorやWordなどであらかじめPDF書き出しして用意したもの 4)紙文書をスキャンしてPDFにしたもの・・・などなど これらのそれぞれのPDFファイルにタイトルをつけ、このタイトルを用いて検索したいのです。 そこでお聞きしたいのですが、 1)Namazuを使って実際にこういう検索ができるのかどうか 2)無理であるならば、どのような仕組みを使わなければならないのか 3)用意するPDFには検索させるためにどのような加工が必要なのか・・・(たとえば、PDFと一緒にテキストのデータがいるとかどうとか) 4)こういうことをやっている業者さんがあるのかどうか・・ かなり無理を言いますが、ご存知の方がいらっしゃいましたら教えてください。よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • xjd
  • ベストアンサー率63% (1021/1612)
回答No.1

以下のツールを使えば、PDFの検索システムは簡単に作れます。 テキスト・html・word・excel・pdfの検索ができます。 Apache (Webサーバ) perl namazu kakasi xpdf-japanese googleで上記のキーで検索してみてください。構築方法を解説したページが たくさんヒットします。 OSはWindows/Linux どちらでもOKです。 自宅サーバ(Linux)と、ノートPC(Windows2000)で、検索システムを動かしてますが とても便利です。 それから、namazuでわからんときは、メーリングリストで質問するのがお勧めです。 http://www.namazu.org/ml.html こういうシステムを組むなら、自前でサーバを持つのが一番ベストでしょう。 レンタルサーバでは、ツールのインストールもできない場合もありますので。 外部に公開しないのなら、余っているPCで検索システムを組んでLANにつなぐだけですね。

chikonojyo
質問者

お礼

ありがとうございます。一度メーリングリストに加入して質問もしてみます。参考になりました!ありがとうございました!!

その他の回答 (2)

  • himajin1
  • ベストアンサー率43% (184/422)
回答No.3

Namazu は、未体験ですが、pdfファイル化は経験者です。 2)広報誌などの切り抜きを自分たちで利用するためにスキャンしてPDFにしたもの 4)紙文書をスキャンしてPDFにしたもの 上記2つには、OCRが付いていますか? 付いていなければ、Namazu に登録する前に、OCRを行い、透明テキストをpdfに付けておきましょう。 全文検索が可能になります。

chikonojyo
質問者

お礼

ありがとうございます。透明テキストというのがいまいちよくわからないところであったりしますが、少し調べてみます!参考になりました!ありがとうございました!!

  • akamanbo
  • ベストアンサー率17% (462/2680)
回答No.2

タイトルの検索だけですか? それなら、ファイル名をタイトルと同じにして検索すれば十分なのでは…?

chikonojyo
質問者

お礼

そうですね。それでもできるんですよね?ありがとうございます。参考になりました!ありがとうございました!!

関連するQ&A