• 締切済み

2つのテキストの差を知りたい!部分一致が出来るフリーソフト

2つのテキストファイルの差が知りたく、 部分一致で検索し、差を出してくれる(テキストの色が変わるとかで)フリーソフトを探しています。 具体的にしたいのは、 URLからHTMLを取ってきたそのままのデータと、 取ってきたものからタグを外したテキスト部分のみのデータとを比較し、 きちんとタグが取れているのか、 テキストの取りそこないはないか、チェックしたいのです。 言語はrubyを使っていて、Diffで出来るかな、と思ったのですが、 Diffが標準で入っていないため、 UNIXのDiffを使ってチェックしてみました。 しかし、全文検索のため、うまくタグが外れているか分かりませんでした…。 また、 NoEditorを使ってみましたが、これも完全一致でした…。 もし、そんなソフトがないのであれば、 Rubyでどんなプログラムを書けばよいのでしょうか? 大変、都合の良い質問で申し訳ないですが、 卒論で焦っています。。 どうぞ宜しくお願いします。

みんなの回答

  • koko_u_
  • ベストアンサー率18% (459/2509)
回答No.3

どうにもやりたい事がわからない。 >URLからHTMLを取ってきたそのままのデータと、 これは HTML タグの含まれたデータを Ftp などで テキストファイルとして取得したという意味ですか? >取ってきたものからタグを外したテキスト部分のみのデータとを比較し、 タグをどうやって外そうとしていますか?Rubyスクリプト?手作業? 比較するとは何と何を? 日本語で「タグが取れる」と表現すると get の意味にも remove の意味にも 解釈できるので、よくわかりません。 具体例を挙げてもらえるとわかるかも

23ringo
質問者

お礼

焦っていたので、舌足らずでした。。 下の方が教えていただいたソフトで解決しましたが、 私がやっていたことは、 URLから内容を、Rubyで1行ごと読み込み、 HTMLタグの含まれたデータをテキストファイルで取得しました(1)。 その取得したテキストファイルから、 if (/<.+?>(.+)(<.+?>)/ =~ line) || ( /(.+)<.+?>/ =~ line) after_tag = $1   print after_tag end でタグを外したファイルを付けていました(2)。 そして、(1)と(2)を比較したかったのです。

回答No.2

DFがオススメです。 VECTORにいけばいろいろありますよ。

参考URL:
http://www.vector.co.jp/soft/dl/win95/util/se113286.html
  • ZENO888
  • ベストアンサー率49% (8944/18242)
回答No.1

関連するQ&A