- 締切済み
2つのテキストの差を知りたい!部分一致が出来るフリーソフト
2つのテキストファイルの差が知りたく、 部分一致で検索し、差を出してくれる(テキストの色が変わるとかで)フリーソフトを探しています。 具体的にしたいのは、 URLからHTMLを取ってきたそのままのデータと、 取ってきたものからタグを外したテキスト部分のみのデータとを比較し、 きちんとタグが取れているのか、 テキストの取りそこないはないか、チェックしたいのです。 言語はrubyを使っていて、Diffで出来るかな、と思ったのですが、 Diffが標準で入っていないため、 UNIXのDiffを使ってチェックしてみました。 しかし、全文検索のため、うまくタグが外れているか分かりませんでした…。 また、 NoEditorを使ってみましたが、これも完全一致でした…。 もし、そんなソフトがないのであれば、 Rubyでどんなプログラムを書けばよいのでしょうか? 大変、都合の良い質問で申し訳ないですが、 卒論で焦っています。。 どうぞ宜しくお願いします。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- koko_u_
- ベストアンサー率18% (459/2509)
どうにもやりたい事がわからない。 >URLからHTMLを取ってきたそのままのデータと、 これは HTML タグの含まれたデータを Ftp などで テキストファイルとして取得したという意味ですか? >取ってきたものからタグを外したテキスト部分のみのデータとを比較し、 タグをどうやって外そうとしていますか?Rubyスクリプト?手作業? 比較するとは何と何を? 日本語で「タグが取れる」と表現すると get の意味にも remove の意味にも 解釈できるので、よくわかりません。 具体例を挙げてもらえるとわかるかも
- ryoku_chan
- ベストアンサー率0% (0/4)
DFがオススメです。 VECTORにいけばいろいろありますよ。
- ZENO888
- ベストアンサー率49% (8944/18242)
お礼
焦っていたので、舌足らずでした。。 下の方が教えていただいたソフトで解決しましたが、 私がやっていたことは、 URLから内容を、Rubyで1行ごと読み込み、 HTMLタグの含まれたデータをテキストファイルで取得しました(1)。 その取得したテキストファイルから、 if (/<.+?>(.+)(<.+?>)/ =~ line) || ( /(.+)<.+?>/ =~ line) after_tag = $1 print after_tag end でタグを外したファイルを付けていました(2)。 そして、(1)と(2)を比較したかったのです。