どうしてもMeCabの辞書をUTF-8で作ることができません。
どうしてもMeCabの辞書をUTF-8で作ることができません。
さくらインターネットでMecabを構築中です。
ローカルエリアに、MeCabと辞書をインストールして、
動作確認したところ、動作上は問題が無いのですが表示がEUCで表示されます。
色々とネットで調べて、UTF-8で辞書を構築しようとパラメータ指定を
行っているのですが、全く改善されません。
どこが間違っているのでしょうか。。。
●Mecab本体のインストール(mecab-0.98.tar.gz)
% ./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only
% make
% make install
●辞書のインストール(mecab-ipadic-2.7.0-20070801)
%./configure --with-charset=utf-8 --with-dicdir=/home/mirailink/local/lib/mecab/dic/ipadic
(with-charsetを、utf8 にしてもダメ。また、下記コマンドで強制的?にUTFにしてもダメ
$HOME/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8 )
% make
% make install
●結果確認
(teratermでssh接続し、表示コードはUTF-8に設定しています)
%mecab
今日は良い天気です。
莉 ?サ・ー・フ,*,*,*,*,莉,・ソ・ォ・爭・・ソ・ォ・爭・
オュケ・ー・フ,*,*,*,*,*
日 ?サ・クヌヘュフセサ・チネソ・,*,*,*,*
は ?サ・ー・フ,*,*,*,*,*
良 ?サ・ー・フ,*,*,*,*,*
い ?サ・ー・フ,*,*,*,*,*
天気 ?サ・ー・フ,*,*,*,*,*
です ?サ・ー・フ,*,*,*,*,*
。 ?サ・・オハムタワツウ,*,*,*,*,*
●不明
インストールパラメータでwith-charset=utf-8を指定しているにも関わらず、
辞書設定ファイル(dicrc)を見ると、下記のようにECUで作られています・・・。
config-charset = EUC-JP
補足
オプションはわかるのですが、コマンドプロンプトにどのように記述すればよいのか分からなくて困っています。 -Owakati 鳩山首相の退陣表明で、自民党内に「首相交代効果」への危機感が強まってい る。 - 名詞,サ変接続,*,*,*,*,* Owakati 名詞,一般,*,*,*,*,* 鳩山 名詞,固有名詞,地域,一般,*,*,鳩山,ハトヤマ,ハトヤマ 首相 名詞,一般,*,*,*,*,首相,シュショウ,シュショー の 助詞,連体化,*,*,*,*,の,ノ,ノ 退陣 名詞,サ変接続,*,*,*,*,退陣,タイジン,タイジン 表明 名詞,サ変接続,*,*,*,*,表明,ヒョウメイ,ヒョーメイ で 助詞,格助詞,一般,*,*,*,で,デ,デ 、 記号,読点,*,*,*,*,、,、,、 自民党 名詞,固有名詞,組織,*,*,*,自民党,ジミントウ,ジミントー 内 名詞,接尾,一般,*,*,*,内,ナイ,ナイ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 「 記号,括弧開,*,*,*,*,「,「,「 首相 名詞,一般,*,*,*,*,首相,シュショウ,シュショー 交代 名詞,サ変接続,*,*,*,*,交代,コウタイ,コータイ 効果 名詞,一般,*,*,*,*,効果,コウカ,コーカ 」 記号,括弧閉,*,*,*,*,」,」,」 へ 助詞,格助詞,一般,*,*,*,へ,ヘ,エ の 助詞,連体化,*,*,*,*,の,ノ,ノ 危機 名詞,一般,*,*,*,*,危機,キキ,キキ 感 名詞,接尾,一般,*,*,*,感,カン,カン が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 強まっ 動詞,自立,*,*,五段・ラ行,連用タ接続,強まる,ツヨマッ,ツヨマッ て 助詞,接続助詞,*,*,*,*,て,テ,テ いる 動詞,非自立,*,*,一段,基本形,いる,イル,イル 。 記号,句点,*,*,*,*,。,。,。 EOS などとなってしまい、正しく行うことができません。 どのようにすればよろしいのでしょうか?