• ベストアンサー

ダブっている単語を削除して1つにしたいです

テキストファイルの中に大量の単語(1Gほど)が羅列しています。 この単語でいくつもダブっている単語がありまして、同じ単語が4つ5つある場合もあります。 ダブっている単語を発見して、ダブっている単語を削除して1つにしたいのですがLINUXでこの作業をする場合どのようにすればいいでしょうか? 恐れ入りますがお時間ある方で上記の処理方法のアドバイスを頂ける方がいらっしゃいましたら何卒よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • notnot
  • ベストアンサー率47% (4900/10358)
回答No.2

単語は何で区切られていますか?改行区切り、つまり、1行1単語であれば、 sort -u です。 そうでない場合、改行区切りに変更して良いのであれば、tr 等で区切り文字を変えてから sort -u 。 さらにそうでない場合はその場合に応じて。

megumi19910715
質問者

お礼

ありがとうございます! 求めていたコマンドでした!!

その他の回答 (1)

  • mkt23456
  • ベストアンサー率33% (21/63)
回答No.1

uniq コマンドになると思います。 詳しくは調べてみてください。

関連するQ&A