ベストアンサー

※ ChatGPTを利用し、要約された質問です（原文：DOMNodeのtextContentで日本語が正しく取得できません。）

日本語が正しく取得できない問題について

2009/10/23 19:57

このQ&Aのポイント

DOMNodeのtextContentで日本語が正しく取得できない問題があります。
PHP 5.2.11の環境でDOMCommentのDOMElementのtextContentを使って日本語を取得しても、正しく取得できない現象が起きます。
DOM関数がマルチバイトに対応していない可能性があります。文字コード変換関数を試しても解決しないようです。

DOMNodeのtextContentで日本語が正しく取得できません。

PHP 5.2.11 の環境です。 DOMCommentのDOMElementで->textContent を使って日本語を取得しても、どうしても日本語が正しく取れません。DOM関数がマルチバイトに対応してないのでしょうか？文字コード変換関数でいろいろ試したけれどだめでした。以下のPHPです。 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" lang="ja-JP"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>GooSarch PHP</title> </head> <body> <form method="get" action="<?php echo $_SERVER["PHP_SELF"];?>" id="query_top"> <label for="searchtop">検索：</label> <input type="text" name="MT" value="" id="searchtop" size="45"> スコア <select name="rm"> <option value = '0'>全部</option> <option value = '1' selected>1 以上</option> <option value = '2'>2 以上</option> <option value = '3'>3 以上</option> <option value = '4'>4 以上</option> <option value = '5'>5 以上</option> </select> <input type="submit" name="btn_g" class="gbbtn_search" value="gooブログ検索"></form> <hr> <?php $url="http://blog.search.goo.ne.jp/search_goo/result/"; $parm=rawurldecode(http_build_query($_GET)); $parm=mb_convert_encoding($parm,"EUC-JP","auto"); $uri =($url . "?" . $parm); $data=file_get_contents($uri); $data=mb_convert_encoding($data,"UTF-8","EUC-JP"); $data = str_replace ("euc-jp","utf-8",$data); print_r(mb_detect_encoding($data)); //print_r($data); mb_internal_encoding("UTF-8"); $dom = new DOMDocument(); @$dom->loadHTML($data); print_r($dom->xmlEncoding); // $doc=$dom->documentElement; $xpath = new DOMXPath($dom); $query = '//div[@id="incontents"]//div[@class="group_time_box"]//li/div[@class="title"]/a[1]'; $entries = $xpath->query($query); echo ($entries->length).'<br>'; foreach($entries as $entry){ echo $entry->getAttribute('href').'<br>'; // $x = mb_convert_encoding($entry->textContent,"UTF-8","UTF-8"); $x=$entry->textContent; // print_r(mb_detect_encoding($entry->textContent)); // print_r($entry->firstChild->nodeName); print_r(mb_detect_encoding($x)); // echo $entry->textContent.'<br>'; echo $x.'<br>'; } //echo '<a href="' . $a->getAttribute('href') . '">' .$a->textContent. '</a>' .'<br>'; //echo '<a href="' . $a->getAttribute('href') . '"></a>' .'<br>'; ?> </body> </html>

yyr446
お礼率46% (33/71)

PHP
回答数1
ありがとう数3

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

himajin100000
ベストアンサー率54% (1660/3060)

2009/10/24 13:11 回答No.1

前置き: 白状すると、俺、rawurldecodeとrawurlencodeを見間違えて、「作り方おかしいぜ」ってなコメント入れようとしていたんだ。 #まぁrawurldecodeだったとしても納得いかないんだけど(ソースとコメント参照)。 #しかも str_replace ("euc-jp","utf-8",$data);って"euc-jp"がmeta[@http-equiv="ContentType"]以外にあったらどーすんだ、と。人のミスを見つけると子供のように喜ぶ俺はうきうき気分で自己紹介欄にコメント書いて、さあ後は実験だ、となった。(間違った予測) …あれれ、失敗。失敗。失敗。自分も出来ない(泣) え？え？え？loadHTMLはmeta要素で指定されていれば、文字符号化方式は自動的に判別するはずだしなぁ (しばらく検索) …PHPのばっかやろー。 ================== 本題: http://devzone.zend.com/article/8855 If encoding is not declared in the XML/HTML header, the input string is parsed as 符号化方式がXMLおよびXHTMLのヘッダで示されていないとき(訳注:meta要素も含むと思う)、入力文字列は以下の物として解釈される * a UTF-8 string by loadXML(); loadXML()を使った時はUTF-8の文字列 * an ISO-8859-1 string by loadHTML() (!!!!) corresponding to the HTTP 1.1 standard (RFC2068, section 3.7.1); * and DOMDocument::$encoding is set to null. loadHTML()を使った時は、HTTP1.1に基づき、ISO-8859-1の文字列として解釈する。このとき、DOMDocument::$encodingはnullに設定される。 Clearly, problems of correct document encoding transformation are more difficult to be solved for HTML parsing than XML, as the latter has a more formal specification and stricter rules, XML encoding is declared in the opening tag, and the default encoding is UTF-8, which covers the whole Unicode range. So the rest of the article will mostly touch on HTML parsing problems. 明らかに、正しい符号化方式変換の問題はXMLのパースよりHTMLのパースの方が解決するのが難しい。何故なら後者はよりもっと詳しい仕様書と厳格なルールがあるからだ。XMLの符号化方式は始まりのタグ(訳注:XML宣言のこと？)で宣言される。されなかったときのデフォルトはUnicodeの範囲全体をカバーするUTF-8がデフォルトだ。よって、この記事の残りの殆どはHTMLのパースの問題について述べている。 Encoding issues with HTML parsing HTMLのパースの符号化方式の問題 Unfortunately, loadHTML() doesn't always correctly recognize the defined Content-type HTTP-EQUIV meta tag. 【残念ながらloadHTML()はいつも正しくmeta[@http-equiv="Content-Type"]を認識するわけではない】 The following things act as blockers: 以下の時は認識を阻むものとして動く。 * Any non-ASCII symbol occurring before the Content-type HTTP-EQUIV meta tag; 【ASCII外の文字が何かmeta[@http-equiv="Content-Type"]の前に登場すること】 * Any invalid (from an encoding point of view) symbol occurring in the document. E.g. Content-type meta tag declares 'charset=UTF-8', but the actual HTML markup contains non-valid UTF-8 sequences. ===================== …え？まさか確かめてみる。 loadHTMLが実行出来ない以上、DOMノードが作れないので CDATAマーク区間その他に含まれる同じ文字列を巻き込むこと覚悟で ""をstr_replaceで置き換えてみた →成功orz ============== #っていうか、他の部分を巻き込まず、"サニタイズ"を考えなくていいところがDOMの一つの利点だと思うんだがな…

この投稿のマルチメディアは削除されているためご覧いただけません。

質問者

お礼 2009/10/27 09:10

ご解答ありがとうございます。 3日間ほど、寝込んでいたもので、今読みました。研究してみます。

質問者

補足 2009/10/28 10:53

ご回答をヒントに解決できました。ブラウザー文字化け対策の記述が仇となってたみたいです。 を<--binyu--> として無事解決しました。龠は美乳の一種だったとは。

日本語が正しく取得できない問題について

DOMNodeのtextContentで日本語が正しく取得できません。

質問者が選んだベストアンサー

お礼 2009/10/27 09:10

補足 2009/10/28 10:53

関連するQ&A

実行されない原因は？ＤＯＭ？何かがインストールされていない？？

RSSを取得したいのですが

Python os.system 日本語ファイル名文字化け

AIは使う人の年齢や市場にも影響する？人工知能の可能性

日本語が使いたいのですが[mbstring]設定がわかりません

日本語が文字化けしないよう読み込み

文字の見た目の長さを取得する方法について

半角￥を全角￥に変換するために

選んだ数字だけ繰り返す

文字コード(UTF-8)文字化けについて

チェックボックスの値をデータベースに登録

文字列のエンコードについて

PHP+MySQLで文字化けします

文字化け

urlencodeしていない日本語をPATH_INFOで

フォームからPOSTされた値をXMLへ書き込むプログラムなのですが、「

php5.4でwin 日本語ファイル一覧表示

改行を含んだ場合の空白について

POST からの受け渡しができません・・・

PHPから、MySQL内に日本語名のテーブルを作成する事ができません。

PHP+csv+リストボックスで文字化け

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

日本語が正しく取得できない問題について

DOMNodeのtextContentで日本語が正しく取得できません。

質問者が選んだベストアンサー

お礼 2009/10/27 09:10

補足 2009/10/28 10:53

関連するQ&A

実行されない原因は？ＤＯＭ？何かがインストールされていない？？

RSSを取得したいのですが

Python os.system 日本語ファイル名 文字化け

AIは使う人の年齢や市場にも影響する？人工知能の可能性

日本語が使いたいのですが[mbstring]設定がわかりません

日本語が文字化けしないよう読み込み

文字の見た目の長さを取得する方法について

半角￥を全角￥に変換するために

選んだ数字だけ繰り返す

文字コード(UTF-8)文字化けについて

チェックボックスの値をデータベースに登録

文字列のエンコードについて

PHP+MySQLで文字化けします

文字化け

urlencodeしていない日本語をPATH_INFOで

フォームからPOSTされた値をXMLへ書き込むプログラムなのですが、「

php5.4でwin 日本語ファイル一覧表示

改行を含んだ場合の空白について

POST からの受け渡しができません・・・

PHPから、MySQL内に日本語名のテーブルを作成する事ができません。

PHP+csv+リストボックスで文字化け

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

Python os.system 日本語ファイル名文字化け