- ベストアンサー
SJIS→UTF-8変換後の文字化けについて
EXCELで作ったテキストデータ(SJIS)をPHPで読み込んでUTF-8でDBへ書き込むという処理をしたいのですが、一部どうしても文字化けしてしまう文字("l(リットル)"と"II")があり困っています。 具体的には、data.dat(SJIS)を、 hoge.php(UTF-8)で、 $data = mb_convert_encoding(file_get_contents("data.dat"),"UTF-8","auto"); というようにしています。 テキストデータはSJIS、DBへはUTF-8というのは変えられません。 なにかよい方法はないでしょうか?
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
リットルって筆記体の小文字のエル、UTF-8でE2 84 93の文字でしょうか。もしそうなら、その文字は本当のSJISには存在しない文字なので"?"になってしまうのは当然です。 mb_convert_encoding()に与えるエンコーディング名を"auto"や"SJIS"ではなく"SJIS-win"に変えてみてください。
その他の回答 (4)
- karumakaruma
- ベストアンサー率65% (65/100)
#3,4です。 何度もすいません・・・・・このページでは文字参照が数字しか変換されないみたい・・・ リットル を & #8467; とEXCELに入れてもらって引き込むという手もあります。 &と#の間の空白は取ってください。
- karumakaruma
- ベストアンサー率65% (65/100)
#3です。 最後の行の リットル を ℓ とEXCELに入れてもらって引き込むという手もあります。 ですが、 リットル を ℓ とEXCELに入れてもらって引き込むという手もあります。 です。 文字参照が変換されてしまいました(^^;;
- karumakaruma
- ベストアンサー率65% (65/100)
リットル 等SJISに無い文字を保存する場合は Unicodeテキスト(*.txt) 形式で保存してもらうのはどうでしょうか? そして、UTF-8への変換時にSJISとUTF-16LE両方に対応しておけば 一応は リットル なども引き込めると思います。 $data = mb_convert_encoding(file_get_contents("data.dat"),"UTF-8","SJIS,UTF-16LE"); 引き込んだデータをHTMLとして表示するのであれば、文字参照を利用して リットル を ℓ とEXCELに入れてもらって引き込むという手もあります。
お礼
詳しいご回答ありがとうございます。 Unicodeテキストで保存する方法を試しましたがダメなようです。 文字参照については、クライアント側で文字参照で入力してもらうのは困難なため断念しました。 今回はN0.2の方にお礼した方法でとりあえず行きたいと思います。 どうもありがとうございました。
- taka451213
- ベストアンサー率47% (436/922)
こんばんは。 $data = mb_convert_encoding(file_get_contents("data.dat"),"UTF-8","auto"); を $data = mb_convert_encoding(file_get_contents("data.dat"),"UTF-8","SJIS"); にしたらどうですかね? autoは ASCII,JIS,UTF-8,EUC-JP,SJIS の順で照合しますから、SJISの前に引っ掛かっているような・・・。
補足
早速のご回答ありがとうございます。 お恥ずかしながら引数の意味もあまりわからないまま使っていました。 ひとつ勉強になりました。 しかし今回は残念ながらうまくいきませんでした(同じ結果でした) 試しに変換する前にprintしてみたら、"II"は"II"リットルは"?"と表示されました。 変換後はどちらも"?"です。 ちなみに、WordpressのDBに直接書きこむのですが、投稿画面から入力した物に関してはリットルもIIもちゃんとそのままDBに入っています。 引き続き何か心当たりがございましたらお願いいたします。
お礼
ご回答誠にありがとうございます。 まず、ご指摘のように、エンコーディング名を"SJIS-win"にしてみたところ、"II"は文字化けがなおり、正常になりました。 リットルは、おっしゃるように、筆記体の"l"です。根本的に不可能ということは理解しました。 ただ、クライアントからの強い要望でどうしても筆記体のlを表示する必要があるため、 UTF-8に変換する前に"?"を"<<<L>>>"に置き換え → UTF-8に変換 → "<<<L>>>"を"筆記体のl"に置き換え という、化けるのはリットルだけという前提のとりあえずな方法でひとまずうまくいきました。 出来ればもっとスマートな方法があればいいなと思うのですが、なにかいい案がございましたら参考までにお聞かせ願えればと思います。