HTML文書の子要素と孫要素の表現方法について

2012/08/01 00:13

このQ&Aのポイント

HTML文書の子要素とその子孫要素を表現する方法を調査しています。
document.getElementsByTagName('*')の値をインデックスに変換して、子要素と孫要素を抽出する方法を求めています。
途中まで作成したコードが正しく動作しなかったため、説明の補足資料を提供しています。

複雑な再帰(?)に関して

次の様なHTML文書があるとします。(何かしら問題があっても、気にしないでください。) <!DOCTYPE> <html> <head><title></title></head> <body> <p> <div> </div> <div><font></font></div> </p> <div></div> </body> </html> この時、document.getElementsByTagName('*')の値は、配列のように表現するなら、 [html,head,title,body,p,div1,div2,font,div3] (便宜上、出現順が手前なものは、順にタグ名の最後に数字) ですよね。ところで、これらの子要素と、その子孫要素を、次の様に表現するとします。例えば、htmlなら、 head(子),title(孫),body(子),p(孫),div1(孫),div2(孫),font(孫),div3(孫) なので、孫は配列にまとめて [head,[title],body,[p,div1,div2,font,div3]] とします。残りも同様にすると、(子が無ければ、undefined) [[head,[title],body,[p,div1,div2,font,div3]],[title],undefined,[p,[div1,div2,font],div3],[div1,div2,[font]],undefined,[font],undefined,undefined] となると思います。これを、document.getElementsByTagName('*')の値のインデックスに変えます。(undefinedは、長いので、とりあえず0にします。実際はundefinedです。) [[1,[2],3,[4,5,6,7,8]],2,0,[4,[5,6,7],8],[5,6,[7]],0,[7],0,0] となります。これを求めたいのですが、childNodesを調べていくのがいいと思いやってみたのですが、HTMLを固定しても、array[tmp1][tmp3].push(index++); ……みたいなのが沢山できて、全く分からなくなりました。実際の手順は、次の様になります。 ※～.childNodesの内、nodeType==1のもののみを対象とします。例えば、<html>.childNodesに値があれば、構造リスト(と呼びます)にインデックスを追加していくのですが、<head>.childNodesに値があるので、構造リスト[0][1]にそのchildNodesを追加します。それと同時に、<head>のインデックスの位置つまり、構造リスト[1]にも、同じものを追加します。もしさらに～.childNodesに値があれば……という様に、どんどん追加するものが増えていきます。こういうのは、どんな風にすれば、出来るのでしょうか。途中まで作って断念したものをあげておきます。上記の分かりにくい説明の足しになれば幸いです。 https://box.yahoo.co.jp/guest/viewer?sid=box-l-ttqw5dhmp67ubidpgf4d6umsam-1001&uniqid=eba01d08-56bc-4658-845c-a671783a63d9&viewtype=detail そのままでは、正しく動作しません。

gorusura
お礼率59% (16/27)

JavaScript
回答数3
ありがとう数1

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

fujillin
ベストアンサー率61% (1594/2576)

2012/08/06 15:04 回答No.3

#2です。基本的にDOMの通りでよいのであれば、#1にも書きましたように、子要素を処理する関数と子孫要素を処理する関数を作成しておいて、前者をループで呼び出せばよいと思われますので、再帰は不要かと思います。＞～だということでお願いします。＞例を、このようにして下さい。って、なんだか作れと言われているような・・・作る気はなかったのですが、現在ある記述スタイルのお勉強を始めたところなので、お勉強のためにそのスタイルで… とは言っても、先週から始めたばかりなので少々中途半端なのと要領も悪そう。（一応、動作すると思います） * ご提示のHTMLのうちlink要素をmetaとscriptに変えています。 * 結果の確認のため、要素名と"undefinde"（文字列）でリスト化しています。 * 要素→要素名はtranslate内で行なっていますので、インデックスへの変換をするならここを修正。 * mapが使えない場合は展開してください。（実は、私の環境でも使えないんですけれど）（半角空白は全角に） <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"> <html lang="ja"> <title>Example</title> <meta http-equiv="Content-Script-Type" content="text/javascript"> <script type="text/javascript">  </script> </head> <body> <h1> <a href="/">Header</a> </h1> <ul id="nav"> <li> <a href="one/">One</a> </li> <li> <a href="two/">Two</a> </li> </ul> </body> </html> ＜実行結果＞ [ [HEAD,[TITLE,META,SCRIPT],BODY,[H1,A,UL,LI,A,LI,A]], [TITLE,META,SCRIPT], undefined, undefined, undefined, [H1,[A],UL,[LI,A,LI,A]], [A], undefined, [LI,[A],LI,[A]], [A], undefined, [A], undefined ]

質問者

お礼 2012/08/07 11:02

本当にありがとうございます。その様な方法があるとは、思いつきませんでした。以下のようにして、使いたいと思います。 if((document.head||document.getElementsByTagName('head')[0]).children){ window.get=function(){ var index=0,structure=[],all=document.getElementsByTagName("*"),memo,children,array,index2,length=all.length,array2,j,k,i=0; for(var length2,length3;i<length;i++){ memo=++index; array=[]; index2=0; length2=(children=all[i].children).length; for(j=0;j<length2;j++){ if(array[index2++]=index++,length3=children[j].getElementsByTagName("*").length){ array2=Array(length3); for(k=0;length3--;){ array2[k++]=index++; } array[index2++]=array2; } } structure[i]=index2?array:0; index=memo; } return structure; }; } else{ window.get=function(){ var index=0,structure=[],all=document.getElementsByTagName("*"),memo,childNodes,array,index2,length=all.length,array2,j,k,i=0; for(var length2,length3;i<length;i++){ memo=++index; array=[]; index2=0; length2=(childNodes=all[i].childNodes).length; for(j=0;j<length2;j++){ if(1==(array2=childNodes[j]).nodeType && (array[index2++]=index++,length3=array2.getElementsByTagName("*").length)){ array2=Array(length3); for(k=0;length3--;){ array2[k++]=index++; } array[index2++]=array2; } } structure[i]=index2?array:0; index=memo; } return structure; }; }

その他の回答 (2)

fujillin
ベストアンサー率61% (1594/2576)

2012/08/03 22:23 回答No.2

#1です。＞今の所は、<p>～</p>までが、p要素だということでお願いしますその解釈にするなら、DOMを解析しても欲しい結果は得られないと思います。 #1にも書きましたように独自のパーサーを作るようなことになりますし、それはあくまでもＨＴＭＬソースの解析になってしまうのではないでしょうか。 DOMを解析してDOMと異なる結果を作り出すのは、大変難しいと思われます。また、ご質問とは関係ありませんが、何にお使いになるのかわかりませんが、事前に解析しておいてもDOM要素は変更されるので、（特に）インデックス化してしまうとまったく使い物にならなくなる可能性が…

質問者

補足 2012/08/04 00:41

http://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Html-source-code3.png では、Wikipediaより…… <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html> <head> <title>Example</title> <link href="screen.css" rel="stylesheet" type="text/css"> </head> <body> <h1> <a href="/">Header</a> </h1> <ul id="nav"> <li> <a href="one/">One</a> </li> <li> <a href="two/">Two</a> </li> </ul> </body> </html> 要素リスト[html,head,title,link,body,h1,a(1),ul,li(1),a(2),li(2),a(3)] (便宜上、順に数字) 構造リスト[[head,[title,link],body,[h1,a(1),ul,li(1),a(2),li(2),a(3)]],[title,link],undefined,undefined,[h1,[a(1)],ul,[li(1),a(2),li(2),a(3)]],[a(1)],undefined,[li(1),[a(2)],li(2),[a(3)]],[a(1)],undefined,[a(2)],undefined] 例を、このようにして下さい。＞また、ご質問とは関係ありませんが、何にお使いになるのかわかりませんが、事前に解析しておいてもDOM要素は変更されるので、（特に）インデックス化してしまうとまったく使い物にならなくなる可能性が… インデックス化した直後に使うので、問題ありません。大きな関数の一部分として使うのみです。

fujillin
ベストアンサー率61% (1594/2576)

2012/08/02 21:39 回答No.1

よくわかってませんが… 普通にDOMのツリー構造を記述するのではないですよね？親要素に対して、　「子要素　＋　孫以下の子孫要素の列挙」をペアにして列挙するのかと思いきや　　＞[title],undefined,[p,[div1,div2,font],div3],[div1,div2・・・あたりからよくわからなくなってくる。（[title]が単独だし、div3の後にundefinedがないし・・・）何となくの感想としては、ツリー構造を追いかけるわけではないので再帰の必要もなく、順にループ処理すればよいのでは？それよりも、そもそもとして＞何かしら問題があっても、気にしないでくださいとはいうものの、ご提示のDOM構造を解析して、＞[html,head,title,body,p,div1,div2,font,div3] と認識するのにはかなり無理がありそう。ご提示のような解析にしたければ、innerHTMLをとって独自にパーサーを作らないとならないのでは？（ＤＯＭで　getElementsByTagName("*") を実際に取って確認してみてください）

質問者

補足 2012/08/02 23:23

失礼しました。確認しました。 http://www.eonet.ne.jp/~nga/html/div&p.html 今の所は、<p>～</p>までが、p要素だということでお願いします。 div3の後にundefinedが無いというのは、[div3,[undefined]]のようになっていないという話でしょうか。もしそうであれば、[undefined]はナシということになっています。「～.childNodesがなかったり」、「あっても、nodeType==1のものがなければ」、[undefined]は追加しない事、となっています。説明不足ですみません。＞[title]が単独要素リスト：[html,head,title,body,p,div1,div2,font,div3] 構造リスト：[[head,[title],body,[p,div1,div2,font,div3]],[title],undefined,[p,[div1,div2,font],div3],[div1,div2,[font]],undefined,[font],undefined,undefined] headの子要素は、titleだけなので、[title]という風に、単独です。もし、headの子要素が、meta1,title,meta2なら、 [meta1,title,meta2]になります。次のundefinedは、titleに子要素が無いからです。要素リストのインデックスと、構造リストのインデックスは、ピッタリです。

HTML文書の子要素と孫要素の表現方法について

複雑な再帰(?)に関して