- ベストアンサー
namzuでtiffファイルを全文検索するには
VineLinuxにnamazeを導入し、ファイルサーバとして運用しています。 現在は、word、excel、ps、pdfファイルなどをサーバに格納し全文検索できるようになっていますが、新しくtiffファイル(文書ファイルをtiff画像にしたもの)についても全文検索できるようにしたいと考えています。 フィルタを見る限りtiffを扱うようにはなっていないように見えます。 tiffファイルのindexを作成する方法を教えてください。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
もうひとつ補足です。 >tiffをpsに変換することは可能ですから、そこからフィルタが作れば(ある?)全文検索が可能だと思ってますが・・・ ビットマップ(*.bmp)からだって、JPEG(*.jpg)からだって、何からだってPSファイルは作れますよ。 アプリケーションから印刷できればですけどね。 あまり詳しくは無いですが、Photoshop PDFっていうファイル型式も、確か実際はイメージデータじゃなかったでしたっけ?(識者のかた、フォローお願いします) 作成もとのアプリケーションが何にしろ、そのファイル型式がテキストだろうがバイナリだろうが、問題はそのファイルが文字列を(取りだせる型で)もっているかどうか、が鍵になるとおもいます。 ためしにテキストエディタで開いてみるとか。 PDFはほぼテキストで開けるし、wordだって、入力した文字列はどこかに残ってますよ。
その他の回答 (2)
- Sawara13
- ベストアンサー率27% (16/59)
こんにちは。 >word、excel、ps、pdfもnamazu(mknmz?)からみるとバイナリーファイルで、 はい、確かにその通りですね、バイナリです。 ただ、私が言いたかったのは、データ型式のことではないんですよ。 バイナリであろうがなかろうが、そこには「文字列」が存在しますね。 wordにしたって、文字列をWord独自の型式でマークアップしているわけですし。 ただ、tiffにはその「文字列」が無く、たとえばファクスの様にドットの集合でしかないとおもうんですが。 これが、同じ画像フォーマットでも、たとえばSVG (Scalable Vector Graphicだっけな?)だと話はちがいますね。 SVGはもともとXMLを基にしてますから、完全では無いにしろ、「文字列」を保持しています。 データ型式もテキストですから、スクリプトやプログラムで簡単に画像の中の文字列を操作できます。 ただ、ドットの集りではね...ドットの集りのどこから意味のある文字列を引張だすのか、ということです。
- Sawara13
- ベストアンサー率27% (16/59)
こんにちは。 word, excel, ps, pdfなどはいずれも、なんらかのかたちでテキストデータがある(ちょっと乱暴な言い方?)なので、全文検索は可能だとおもいますが。 tiffはイメージファイル、ぶっちゃけドットの集まりだとおもうのですが、それの何を全文検索しようとお考えでしょうか?
補足
word、excel、ps、pdfもnamazu(mknmz?)からみるとバイナリーファイルで、そのため、フィルタコマンドを用いてテキストに変換してると理解してたのですが、これって間違ってます? 間違ってたらごめんなさい。 それゆえ、tiffでもテキストに変換できればindexを作成して全文検索が可能だと考えました。 質問に書いてますが、検索対象にしてるtiffファイルは文書ファイルをtiffにしたものです。 tiffをpsに変換することは可能ですから、そこからフィルタが作れば(ある?)全文検索が可能だと思ってますが・・・
補足
>作成もとのアプリケーションが何にしろ、そのファイル型式がテキストだろうがバイナリだろうが、問題はそのファイルが文字列を(取りだせる型で)もっているかどうか、が鍵になるとおもいます。 はい、そう理解しています。 で、これを行うフィルタがtiffに対してあるか、どうかが最終的に聞きたいことでした。