- ベストアンサー
特定の文字列間を抽出(MAC)
特定の文字列間の文字列を抽出したいのですがなにか いいソフトはありませんでしょうか?例えば、 <p>△△△</p> <span>◯◯◯</span> <span>□□□</span> という文があったら <span>◯◯◯</span> <span>□□□</span> もしくは ◯◯◯ □□□ を抽出したいのですが。 回答お待ちしています。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
No1-3です。 別件でRFTからテキストへ変換してくれるソフトを探していたら、Macに標準で入っているtextutilがあるのですね。 http://ascii.jp/elem/000/000/597/597604/index-2.html 初めて知りました。ちょっと使ってみると、RTFだけでなくテキストファイルの文字コード変換もできるようです。 chasenと組み合わせて textutil -convert txt test.rtf -stdout|chasen-utf8 で動いています。 textutil -convert txt test.rtf と出力を指定せずにやってみたら、勝手にtest.txtファイルができ、しかも上書きされてしまします。 要注意です。 ご存知かと思いますが、mecabやchasenなどはMacPortsなどのパッケージ管理ソフトでインストールすると管理が楽です。
その他の回答 (4)
- ki073
- ベストアンサー率77% (491/634)
すみません、まちがってちがうところの回答を書き込んでしまいました。 気にしないでください。
- ki073
- ベストアンサー率77% (491/634)
No.2です。 文字列として取り出すのではなく、見るだけならCotEditorなどの正規表現が使えるエディタが使えます。 検索で正規表現にチェックを入れ<span>.+</span>で一括検索すれば一覧として見ることができます。 一括して取り出す機能は無いようです。 http://sourceforge.jp/projects/coteditor/releases/ データの加工を考えればNo.2の方法が便利なような
- ki073
- ベストアンサー率77% (491/634)
Macに標準で入っているRubyを使えばどうすか。 変数aに文字列が入っているとすると puts a.scan(/<span>.+<\/span>/) で上の結果が puts a.scan(/<span>(.+)<\/span>/) で下の結果が得られます。 日本語の場合は文字コードを合わせてください。 TerminalやAutomatorで使えます。
- atcoffee
- ベストアンサー率16% (184/1091)
Openofficeやterminalで簡単に出来るでしょ