• 締切済み

tesseractの内部データの一致率を取得したい

一致率というのはtesseractにある字体データと対象の文字を比較したスコアという意味です。結果的に文字があっていたかどうかではありません。  http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version このサイトにある ↓0.125という数字は一致率0.875以上だった場合、Good Matchを返すって意味だと思います。  matcher_good_threshold 0.125 Good Match (0-1) matcher_perfect_threshold 0.02 Perfect Match (0-1) やりたいことはこの一致率が指定した値以下だった場合、テキストファイルになにも書き込まないという処理をしたいです。 読み込む画像はすべて1行です。 一致率を取得できればほかのプログラムと組み合わせてできるようになります。 もしくはこのサイトの関数をうまく使えばできそうです。 それらしいものをいじってみたけどうまくいきませんでした。

みんなの回答

  • tukuneto
  • ベストアンサー率26% (12/45)
回答No.3

結局どうなりました? Githubからソースコードを見てみましたか?

  • tukuneto
  • ベストアンサー率26% (12/45)
回答No.2

ほら、案の定回答がつかない。 自業自得というのだが、可哀想に。 1文字だけの確率を出す簡易ソフトを、ざつに作っては見たが、これが精度が高いのか?低いのか?がよくわからない。 どうやって評価するのだろうか?と。 人間的な目線での、評価で良いのかね?? のと、全然別の話だが、今は興味が移り、Tesseractに興味を持ったので、いろいろと調べてみたけど、面白そうだね。 あなたもC言語に詳しければ、調べてみるのはどうだろうか?

  • tukuneto
  • ベストアンサー率26% (12/45)
回答No.1

たぶん、半年くらい期間を置かないと、回答がつかないと思いますよ。 ヒントも書いてあるから、最後まで読んでね。 「tesseractの質問=お礼を書かない奴」という認識になっているので、「じゃー、回答するのやめよう。」という流れになっている。 特に、特定のキーワードがある場合は、そう関連付けられやすいので、最初に質問の仕方を失敗すると、以降の回答率に影響する。 OKWAVEと知恵袋や他の質疑応答サイトでも、同じメンツの可能性があるので、同じく勘ぐられて、同じく回答がつかないことがある。 とばっちりで、似たような質問をした別の人でも、回答がつかないことがある。 「そういう質問者には回答したくないけど、それで困っても、その人の自業自得だから良いんじゃない?」という意見が半分くらいなようだ。 私はそうは思わないが。 でも、人には、社会的な悪者を自分の利益を度外視にしても、許したくないという気持ちが強くあるようだ。 行動経済学の実験でも、それは実証されている。 感謝経済を掲げているOKWAVEでは、感謝しないもの(あなた)は、最貧困者であって、誰も話を聞いてくれない、というのが、現状なのだろう。 ボランティアではなく、感謝という対価を求めるサイトだったようだなー。 話は大幅にそれたが、質問の答えとして、いくつかアイディアがある。 ひとつは、ソースコードをいじる方法だ。 tesseractは、オープンソースなので、当然ソースコードは公開されている。 https://github.com/tesseract-ocr/tesseract ああ、プルリク出してみたら? しかし、もっと簡単で、ある程度実用的(完全とは言いがたいが)な方法も思いついたのだが、それはあなたが、 ありがとうをもらった数累計0 お礼をもらった数0 質問へのありがとうが押された数0 なので、回答しないことにする。 以降、tesseract関連の質問は、ありがとう数0のあなただと勘ぐることにし、このアイディア自体を半年間は保留とする。 私にも、社会的な悪者を自分の利益を度外視にしても、許したくないという気持ちが強くあるようだ。 特にプログラミングや技術系の質問は、回答者が似たメンツの狭い世界なので、次からは質問の仕方や回答やお礼、Q&A参加の態度に気をつけるんだね。 態度が良ければ、回答ついていたかもしれないのにね。もったいない。 でも、意外と態度で損をしている人は、けっこういる。 俺は、損をしているあなたが、可哀想でならない。

関連するQ&A