(VB複数htmファイルからのテキストデータの抽出
フォルダに入った複数のhtmファイルからテキストデータだけを抽出することを考えています。
ExcelVBAで下記のように記載しましたが、テキストだけではなく,htmlタグもコピーされてしまいます。
どのように修正すればよいでしょうか。
どなたか教えて頂けないでしょうか。
Sub ConvertHTMLtoTXT()
Dim htmlFilePath As String
Dim txtFilePath As String
Dim htmlContent As String
Dim txtContent As String
' HTMLファイルのパスを指定する
htmlFilePath = "F:\test\0000AC4A.htm"
' TXTファイルのパスを指定する
txtFilePath = "F:\test\0000AC4A.txt"
' HTMLファイルを開く
Open htmlFilePath For Input As #1
' HTMLファイルの内容を読み込む
htmlContent = Input$(LOF(1), #1)
' HTMLファイルを閉じる
Close #1
' HTMLタグを除去してテキストデータを抽出する
txtContent = RemoveHTMLTags(htmlContent)
' TXTファイルにテキストデータを書き込む
Open txtFilePath For Output As #2
Print #2, txtContent
Close #2
MsgBox "HTMLファイルがテキストファイルに変換されました。"
End Sub
Function RemoveHTMLTags(htmlText As String) As String
' 正規表現を使用してHTMLタグを除去する
Dim regEx As Object
Set regEx = CreateObject("VBScript.RegExp")
' HTMLタグを検索するパターン
regEx.Pattern = "<[^>]+>"
' HTMLタグを除去する
RemoveHTMLTags = regEx.Replace(htmlText, "")
' 正規表現オブジェクトを解放する
Set regEx = Nothing
End Function
お礼