日本語の抽出方法は？

2012/10/12 02:13

このQ&Aのポイント

日本語だけを抽出する方法を教えてください。内部コードが不明な場合も考慮してください。
ひらがなやカタカナの抽出はできますが、漢字だけの場合には対応できません。
内部コードがSJIS、EUC、UTF8のいずれかの場合にも対応した抽出方法を教えてください。

春原なの（@ymda）
お礼率60% (1820/2985)

Perl
回答数3
ありがとう数2

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

SexyAkeko
ベストアンサー率41% (26/63)

2012/10/12 16:56 回答No.3

画像はヘッダーと呼ばれる部分に画像の種類が書かれていますが、文字はそうなっていません。ですが、テキストエディタは、自動的に文字コードを判断しています。文字数が少ないと間違いも多いですが。仕組みは、コードの特徴で判断しているらしいのですが、詳しくは知りません。なので、全体の言語の特徴で判断するのはどうですかね？文中に複数の言語がある場合は、さらに難しいですが、ある程度は可能かと。国が決まっているのなら、文章解析で、例外が少ない言語がその言語かと。日本語解析なんかは、mecabなんかが有名です。一番簡単なのが、ブラウザなら、送信情報に国の情報をいれるとか。

質問者

お礼 2012/10/12 20:32

ありがとうございます。確かに、テキストエディタって、普通に結構な率でそれぞれのコードを識別してくれますが、やはりたまに化けてしまうことはありますね。ですが、今回のは、他国語でなければ、最終変換先のコードは、どれかに決まりますし、他国語を無視していいという条件もありますので、（本当は、その他国語でも処理したいが、これは無視します）これに合致するといえば、ご提案頂いたmecabが一番良いようですね一度、かなに変換して、かなに変換成功して、かつ、それがかなのコードの範囲であれば、日本語と判断できるのもありますので。

その他の回答 (2)

Tacosan
ベストアンサー率23% (3656/15482)

2012/10/12 03:26 回答No.2

まず考えてみてください. 「一」という文字が何語か, 判断できますか? 日本語に限定したとしても, SJIS/EUC/Unicode のどの文字コードであるかを正確に判定することは不可能です. で日本語以外にありえない SJIS を除くと, EUC では言語を区別することができません. 一方 Unicode では判別する方法がないでもないです... が, 普通言語タグなんて使ってくれないよね (そもそも規格ですら推奨していないはず).

質問者