• ベストアンサー

ドメイン「%」で始まるpathを日本語処理する方法

新聞社のニュースやウィキの各ページは、 ドメインのパート部分(path情報)が「%」で始まり ブラウザでは日本語で表示されています。 (例)http://ja.wikipedia.org/wiki/富士山→富士山を説明するページが表示される htmlの静的ファイルに、utf-8形式でエンコードした名前にしてもそのように表示されません このようなpath情報の日本語表示はどうすればできるのでしょうか。 お教えいただければ幸甚です

質問者が選んだベストアンサー

  • ベストアンサー
  • notnot
  • ベストアンサー率47% (4900/10358)
回答No.2

WikipediaやNo1さんの回答は、静的ファイルじゃ無くて、「富士山」をプログラムで処理しています。 少なくとも Apache だと、富士山 という名前のファイル(文字コードはUTF-8)でおいておけば、 ブラウザで http://www.example.com/富士山 で表示されるはずです。 されないとしたらどこかに間違いがあります。 Apache2.2.15 と IE9、 Firefoxで確認しました。

その他の回答 (1)

  • ORUKA1951
  • ベストアンサー率45% (5062/11036)
回答No.1

URLに使われる文字は決まりがあります。  alpha = lowalpha | upalpha   lowalpha = "a" | "b" | "c" | "d" | "e" | "f" | "g" | "h" | "i" |         "j" | "k" | "l" | "m" | "n" | "o" | "p" | "q" | "r" |         "s" | "t" | "u" | "v" | "w" | "x" | "y" | "z"   upalpha = "A" | "B" | "C" | "D" | "E" | "F" | "G" | "H" | "I" |         "J" | "K" | "L" | "M" | "N" | "O" | "P" | "Q" | "R" |         "S" | "T" | "U" | "V" | "W" | "X" | "Y" | "Z"   digit = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" alphanum = alpha | digit RFC 2396( 日本語訳 ) http://jbpe.tripod.com/rfcj/rfc2396.ej.sjis.txt  以外の文字を、この範囲内に変換する必要があります。今回はQERY_STRINGを含まないPATH_INFだけですので、 Perlの置換を使う $str =~ s/([^a-zA-Z0-9_.!~*'()-])/'%' . unpack('H2', $1)/eg; で良いでしょう。  受け取ったPATH_INFを/でsplitして配列にいれ、それを順番に $path =~ s/%([0-9A-Fa-f][0-9A-Fa-f])/pack('H2', $1)/eg; で元に戻します。  その後、 mtFuji:富士山  などのテーブルを参照して、mtFujiのデータをHTMLで作成して出力することになるでしょう。  

関連するQ&A