特殊アルファベットを処理できるOCRソフトはありませんか?
仕事柄、サンスクリット語をローマ字化したテキストを使うのですが、そうしたローマ字には特殊文字が多いという事情があります。
認識させたい文字のリストは以下になります。
1.abc……xyz, ABC……XYZ の普通のアルファベット文字
2.上に -(バー)の付いた、a,i,u,A,I,U の文字。
3.上に . (点)の付いた、n,m,N,M の文字。
4.上に ~(チルダ)の付いた、n,N の文字。
5.下に . (点)の付いた、r,l,t,d,n,s,h,m,R,L,T,D,N,S,H,M の文字。
6.上に '(ダッシュ)の付いた、s の文字。
7.下に . (点)と上に-(バー)の付いた、r,l,R,L の文字。
Adobe Acrobat 8 Pro のOCR機能を利用してテキスト認識をさせても、これらの文字(例えば下 . 付きのn の字など)はうまく認識されません。
そこで、Windows(OS XP, Vista) / Mac(OS X) で使えるOCRソフトウェアで、このような特殊なアルファベットを認識できるものを探しています。有料・無料を問いません。
ご存じの方がいらっしゃったら、是非お教え下さい。
よろしくお願いします。