Word2013、Windows7の環境で、VBAを使って、
Htmlファイルを読み込み、指定タグで囲まれたテキストを無くす処理を下記プログラムでやっています。
----------------------------------------------------------------------------
Sub Prc()
Dim startTag As String, endTag As String
Dim objXML As New MSHTML.HTMLDocument
Dim htmlDoc As New MSHTML.HTMLDocument
Dim objITEM As Object
startTag = "<header>"
endTag = "</header>"
Set htmlDoc = objXML.createDocumentFromUrl("file:///" & "C:\Work\index.html", vbNullString)
Call untilReady(htmlDoc)
For Each objITEM In htmlDoc.all
If Left(objITEM.outerHTML, Len(startTag)) = startTag Then
objITEM.outerHTML = startTag & endTag
End If
Next
End Sub
----------------------------------------------------------------------------
プログラムで読み込んだ結果と実際のHTMLファイルの中身が異なり、class属性が勝手に追加されたりして、
原因がわからなくて、ご教授をお願いいたします。
・実際のHtmlの中身
<!DOCTYPE html>
<html lang="en" dir="ltr">
<head>
<meta charset="utf-8" />
.......
・読み込んだ結果
<!DOCTYPE html>
<html class="js non-mobile" lang="en" dir="ltr">
<head>
<meta charset="utf-8" />
.......