- ベストアンサー
ドメイン「%」で始まるpathを日本語処理する方法
新聞社のニュースやウィキの各ページは、 ドメインのパート部分(path情報)が「%」で始まり ブラウザでは日本語で表示されています。 (例)http://ja.wikipedia.org/wiki/富士山→富士山を説明するページが表示される htmlの静的ファイルに、utf-8形式でエンコードした名前にしてもそのように表示されません このようなpath情報の日本語表示はどうすればできるのでしょうか。 お教えいただければ幸甚です
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
WikipediaやNo1さんの回答は、静的ファイルじゃ無くて、「富士山」をプログラムで処理しています。 少なくとも Apache だと、富士山 という名前のファイル(文字コードはUTF-8)でおいておけば、 ブラウザで http://www.example.com/富士山 で表示されるはずです。 されないとしたらどこかに間違いがあります。 Apache2.2.15 と IE9、 Firefoxで確認しました。
その他の回答 (1)
- ORUKA1951
- ベストアンサー率45% (5062/11036)
URLに使われる文字は決まりがあります。 alpha = lowalpha | upalpha lowalpha = "a" | "b" | "c" | "d" | "e" | "f" | "g" | "h" | "i" | "j" | "k" | "l" | "m" | "n" | "o" | "p" | "q" | "r" | "s" | "t" | "u" | "v" | "w" | "x" | "y" | "z" upalpha = "A" | "B" | "C" | "D" | "E" | "F" | "G" | "H" | "I" | "J" | "K" | "L" | "M" | "N" | "O" | "P" | "Q" | "R" | "S" | "T" | "U" | "V" | "W" | "X" | "Y" | "Z" digit = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" alphanum = alpha | digit RFC 2396( 日本語訳 ) http://jbpe.tripod.com/rfcj/rfc2396.ej.sjis.txt 以外の文字を、この範囲内に変換する必要があります。今回はQERY_STRINGを含まないPATH_INFだけですので、 Perlの置換を使う $str =~ s/([^a-zA-Z0-9_.!~*'()-])/'%' . unpack('H2', $1)/eg; で良いでしょう。 受け取ったPATH_INFを/でsplitして配列にいれ、それを順番に $path =~ s/%([0-9A-Fa-f][0-9A-Fa-f])/pack('H2', $1)/eg; で元に戻します。 その後、 mtFuji:富士山 などのテーブルを参照して、mtFujiのデータをHTMLで作成して出力することになるでしょう。