ベストアンサー

htmlからテキストを取り出す方法

2008/01/16 07:44

htmlの文書があります。ブラウザで見ると罫線が規則的な格子状になっており各セルに文字が入っています。結構大量です。このような文字をテキストとしてマイクロソフトワードで取り出すにはどうしたらよいでしょうか。ブラウザで読み込んでワード上にコピー・ペーストすると、罫線まで一緒にコピーされます。一方、直接ワード上にそのhtmlを読み込むと紙面からはみ出したところまで罫線が及ぶため非常に編集しにくく、また罫線も邪魔です。この問題を解決するには、ワード上に読み込んだデータから罫線をきれいに消去すればよいと思うのですが、どうしたらよいでしょうか。該当する領域全体（文字・罫線）を選択して罫線を削除するような操作をすると、文字まで消えてしまいます。罫線だけを消してしまいたいのですが。また罫線は黒い線だけでなく、薄灰色の線も見えています。これも消したいのですが。よろしくお願いします。

skmsk19410
お礼率54% (276/507)

オフィス系ソフト
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

hirorin00
ベストアンサー率50% (446/884)

2008/01/16 08:52 回答No.1

はじめまして貼り付ける際に、メニューの「編集」→「形式を選択して貼り付け」でテキストファイルを選択すればよいと思います。あと、ファイルが大量にあるのでしたら、下記のフリーソフトで一括してテキストファイルへ変換できます。「UNTAG」 http://www.vector.co.jp/soft/win95/net/se054122.html 的外れでしたらごめんなさい。

質問者

お礼 2008/02/16 14:05

有難うございます。言われてみれば確かにその方法があると思います。

ログインすると、全ての回答が全文表示されます。

その他の回答 (1)

koko88okok
ベストアンサー率58% (3839/6543)

2008/01/16 09:04 回答No.2

> この問題を解決するには、ワード上に読み込んだデータから罫線をきれいに消去すればよいと思うのですが、どうしたらよいでしょうか。 Word2000～2003の場合、表全体を選択して、「罫線」→「変換」→「表の解除」→「文字列の区切り」を選択して「OK」で、罫線だけを削除できます。 Word2007の場合は、表全体を選択して、「表ツール」の「レイアウト」タブ→「データ」グループの「表の解除」→」→「文字列の区切り」を選択して「OK」で、罫線だけを削除できます。ちなみに、文字列を選択して表を作成することもできます。お試し下さい。

質問者