ベストアンサー

ドメイン「%」で始まるpathを日本語処理する方法

2013/05/29 00:35

新聞社のニュースやウィキの各ページは、ドメインのパート部分（path情報）が「%」で始まりブラウザでは日本語で表示されています。（例）http://ja.wikipedia.org/wiki/富士山→富士山を説明するページが表示される htmlの静的ファイルに、utf-8形式でエンコードした名前にしてもそのように表示されませんこのようなpath情報の日本語表示はどうすればできるのでしょうか。お教えいただければ幸甚です

vwir5pd6
お礼率2% (4/136)

その他（ITシステム運用・管理）
回答数2
ありがとう数0

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

notnot
ベストアンサー率47% (4901/10362)

2013/05/29 17:59 回答No.2

WikipediaやNo1さんの回答は、静的ファイルじゃ無くて、「富士山」をプログラムで処理しています。少なくとも Apache だと、富士山という名前のファイル(文字コードはUTF-8)でおいておけば、ブラウザで http://www.example.com/富士山で表示されるはずです。されないとしたらどこかに間違いがあります。 Apache2.2.15 と IE9、 Firefoxで確認しました。

その他の回答 (1)

ORUKA1951
ベストアンサー率45% (5062/11036)

2013/05/29 08:20 回答No.1

URLに使われる文字は決まりがあります。　alpha = lowalpha | upalpha 　　lowalpha = "a" | "b" | "c" | "d" | "e" | "f" | "g" | "h" | "i" | 　　　　　　　　"j" | "k" | "l" | "m" | "n" | "o" | "p" | "q" | "r" | 　　　　　　　　"s" | "t" | "u" | "v" | "w" | "x" | "y" | "z" 　　upalpha = "A" | "B" | "C" | "D" | "E" | "F" | "G" | "H" | "I" | 　　　　　　　　"J" | "K" | "L" | "M" | "N" | "O" | "P" | "Q" | "R" | 　　　　　　　　"S" | "T" | "U" | "V" | "W" | "X" | "Y" | "Z" 　　digit = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" alphanum = alpha | digit RFC 2396( 日本語訳 ) http://jbpe.tripod.com/rfcj/rfc2396.ej.sjis.txt 　以外の文字を、この範囲内に変換する必要があります。今回はQERY_STRINGを含まないPATH_INFだけですので、 Perlの置換を使う $str =~ s/([^a-zA-Z0-9_.!~*'()-])/'%' . unpack('H2', $1)/eg; で良いでしょう。　受け取ったPATH_INFを/でsplitして配列にいれ、それを順番に $path =~ s/%([0-9A-Fa-f][0-9A-Fa-f])/pack('H2', $1)/eg; で元に戻します。　その後、 mtFuji:富士山　などのテーブルを参照して、mtFujiのデータをHTMLで作成して出力することになるでしょう。