• 締切済み

リストの単語がテキストファイルで何回出てくるか

「人の苗字+改行」がたくさん入力されているname.txtと 「苗字が登場する会話文」がたくさん入力されているconv.txtの 二つのファイルがあります。 【name.txt】 鈴木 田中 佐藤 ・・・ 【conv.txt】 昨日の山田さんの話によれば、明日は佐藤さんが担当だそうだ。 京都の中山君が来たときに荷物を届けてほしい。 ・・・ これらname.txtのそれぞれが、conv.txt全体で何回出てきたかを求めるprelのプログラムを作りたいのですが、どのようにしたら良いでしょうか。 アウトプットは 鈴木 256 田中 982 佐藤 157 ・・・ となるようにしたいと思っています。 皆さまのお知恵をお貸しくださいませ。

みんなの回答

  • M_Sato
  • ベストアンサー率54% (550/1003)
回答No.3

この課題で検索のアルゴリズムを考えるときは、以下の点に留意したほうがいいでしょう。 ・二重カウント(「森」さんは「森田」さんでもヒットしてしまいます) ・苗字と普通名詞・地名等との区別(「川原で」「上野駅」など)

  • sakusaker7
  • ベストアンサー率62% (800/1280)
回答No.2

> なんとなく、処理内容はイメージできていたのですが、 > 具体的なスクリプトはどのようになるでしょうか。 > >name.txtもconv.txtも、数万行のオーダーになっていまして、 >どのようにすれば速いか、というのも気になっています。 まず自分のイメージをコードにしてみて、そこで問題が出ているのなら それを聞くべきではないでしょうか。 これじゃ丸投げ。

parade77
質問者

お礼

確かにおっしゃるとおりでした。 一旦閉めて、またあらためることにします。 ありがとうございました。

  • DIooggooID
  • ベストアンサー率27% (1730/6405)
回答No.1

name.txt を1件読む度に、その苗字をキーにして conv.txt を検索する、ということを繰り返すという処理内容が、一般的だと思います。

parade77
質問者

お礼

どうもありがとうございます。 なんとなく、処理内容はイメージできていたのですが、 具体的なスクリプトはどのようになるでしょうか。 name.txtもconv.txtも、数万行のオーダーになっていまして、 どのようにすれば速いか、というのも気になっています。

関連するQ&A