- ベストアンサー
文字数の多い単語だけ抽出(多言語テキスト)
英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。 英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが(一緒に表示させるフルパスは別途消す必要がありますが)、仏・独語となるとイロイロ問題が出てきます。 例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません(アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…)。 そこで質問なのですが: 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。 できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。 どうかよろしくご助言をお願いします
- みんなの回答 (8)
- 専門家の回答
質問者が選んだベストアンサー
その他の回答 (7)
- Lchan0211
- ベストアンサー率64% (239/371)
回答No.8
- sakusaker7
- ベストアンサー率62% (800/1280)
回答No.6
- sakusaker7
- ベストアンサー率62% (800/1280)
回答No.5
- 神崎 渉瑠(@taloo)
- ベストアンサー率44% (1016/2280)
回答No.4
- 神崎 渉瑠(@taloo)
- ベストアンサー率44% (1016/2280)
回答No.3
- Lchan0211
- ベストアンサー率64% (239/371)
回答No.2
noname#182251
回答No.1
補足
大変ご丁寧にご回答くださり、まことにありがとうございました。 アポストロフィとシングルクオートの件については、週明けに出社し次第確認してみたいと思います。 最後に一つだけ甘えさせていただければ、上記のVBSをフォルダ内のファイルを一括処理できるように変更できるでしょうか。 以前、既存のVBSを自分のタスクに合うようにカスタマイズしようと(WEB上のTipsやmsdnのサイトを参照しつつ)トライしたことがあるのですが、動かなかったり不具合が発生したりすることが多く、挫折してしまった経験があります。 いずれは、ちゃんと勉強したいと思いますが、今回はご教示いただけると助かります。 お手数でなければ、よろしくお願いします。