• 締切済み

UTF-8 の特定の文字について

こちらのページで公開されている http://www.tatamilab.jp/rnd/archives/000390.html#i php版 - NgramConverter の59~61行に、 $string = mb_ereg_replace("^(\s|縲)+","",$string); $string = mb_ereg_replace("(\s|縲)+$","",$string); $str_array = preg_split("/(\s|縲)+/",$string); という処理があります。 \sの後の文字列(バイナリではE7B8B2、C280らしい)の意味がわかる方いらっしゃいますか

みんなの回答

  • hrm_mmm
  • ベストアンサー率63% (292/459)
回答No.2

utf8の全角ブランクをShift_JISとして表示しているからです。 utf8に対応したエディターを使って下さい。

  • osamuy
  • ベストアンサー率42% (1231/2878)
回答No.1

ngram_converter_0.1.tar.gzを取得してみたところ $string = mb_ereg_replace("(\s| )+$","",$string); ――と空白文字を処理しているだけみたいです。

関連するQ&A