• ベストアンサー

htmlからテキストを取り出す方法

htmlの文書があります。ブラウザで見ると罫線が規則的な格子状になっており各セルに文字が入っています。結構大量です。 このような文字をテキストとしてマイクロソフトワードで取り出すにはどうしたらよいでしょうか。 ブラウザで読み込んでワード上にコピー・ペーストすると、罫線まで一緒にコピーされます。一方、直接ワード上にそのhtmlを読み込むと紙面からはみ出したところまで罫線が及ぶため非常に編集しにくく、また罫線も邪魔です。 この問題を解決するには、ワード上に読み込んだデータから罫線をきれいに消去すればよいと思うのですが、どうしたらよいでしょうか。該当する領域全体(文字・罫線)を選択して罫線を削除するような操作をすると、文字まで消えてしまいます。罫線だけを消してしまいたいのですが。また罫線は黒い線だけでなく、薄灰色の線も見えています。これも消したいのですが。よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • hirorin00
  • ベストアンサー率50% (446/884)
回答No.1

はじめまして 貼り付ける際に、メニューの「編集」→「形式を選択して貼り付け」でテキストファイルを選択すればよいと思います。 あと、ファイルが大量にあるのでしたら、下記のフリーソフトで一括してテキストファイルへ変換できます。 「UNTAG」 http://www.vector.co.jp/soft/win95/net/se054122.html 的外れでしたらごめんなさい。

skmsk19410
質問者

お礼

有難うございます。 言われてみれば確かにその方法があると思います。

その他の回答 (1)

  • koko88okok
  • ベストアンサー率58% (3839/6543)
回答No.2

> この問題を解決するには、ワード上に読み込んだデータから罫線をきれいに消去すればよいと思うのですが、どうしたらよいでしょうか。 Word2000~2003の場合、 表全体を選択して、「罫線」→「変換」→「表の解除」→「文字列の区切り」を選択して「OK」で、罫線だけを削除できます。 Word2007の場合は、 表全体を選択して、「表ツール」の「レイアウト」タブ→「データ」グループの「表の解除」→」→「文字列の区切り」を選択して「OK」で、罫線だけを削除できます。 ちなみに、文字列を選択して表を作成することもできます。 お試し下さい。

skmsk19410
質問者

お礼

有難うございます。 表ごと読み込んだ後、表を解除するというのも方法ですね。

関連するQ&A