ベストアンサー

テキスト検索の英文の説明をお願いします。

2007/05/20 20:59

テキスト検索について知識が無いのですがこちらのページ（http://hpsupesu.gozaru.jp/）の内容をを都合があり理解しなければならないのですが英語を訳してもテキスト検索についての知識がなく専門用語等でよくわかりません・・・。出来るだけわかりやすく説明していただければ本当に助かるかります。本当に申し訳ないのですが宜しくお願いいたしますｍ(_ _)ｍ

mpacy3
お礼率34% (83/243)

Java
回答数3
ありがとう数2

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

dekopa-
ベストアンサー率42% (161/378)

2007/05/21 22:27 回答No.2

1.「辞書」は、単語と、単語が使われている場所を記録したファイルへのポインタと、類似語を記録した別の辞書へのポインタを持つ。 2.「データ(名前がないので)」は、どのドキュメントでそれぞれ何回、どの場所で単語が使われているのかを表す。（章、文、語の番号で位置を記録） 3.ドキュメントは、ドキュメントの本文とインデックスで構成され、「データ」はインデックスへのポインタを持つ 4.インデックスは、プライバシーコードによってそのデータへのアクセス許可を制限する 5.ドキュメントは、段落やドキュメントにタイトルを持つ 6.辞書はISAM形式で保存されるだいたいこんなところですかね。細かい情報はまだありますけど。ぶっちゃけると、「単語」に分割して、その全ての出現位置を１つずつ記録して、最後にそれを合計して「出現回数」を持った「辞書」を作ります。あとは、逆に辞書から単語を検索し、使われている文書内の位置を検索できるようになります。割と単純な手法ですが、辞書を作りやすい英文（日本語だと、空白で区切る習慣がないので「どこからどこまでが単語」という解析が先）では割と効果的じゃないかと思います。＃検索頻度が上がると重くなりそうですが。

質問者

お礼 2007/05/24 03:20

ご回答ありがとうございます。回答を参考に訳して結構わかりました。現在以下の部分の訳がよくわからないのですが出来ればご回答頂ければありがたいです。 STAIRS implements a separate SELECT access system for formatted fields, as opposed to the SEARCH mode used with normal content terms. Methods are provided to process queries containing both objective and content terms.

その他の回答 (2)

dekopa-
ベストアンサー率42% (161/378)

2007/05/24 09:17 回答No.3

#2です。私も翻訳機だよりなので、あまり期待しないでください。元ページの前後の文脈から、「formatted fields」というデータの用途に触れているみたいですね。通常のSEARCHモードに加えて、書式化された情報（例えば参考書籍の為に[GoF95]と著者＋年を記載する、とか）を検索するSELECTモードを備えている、かな。