web-dev-qa-db-ja.com

OCRに最適なフォントは何ですか?

誰かがOCRの異なるフォントを使った経験はありますか? IDを生成してから、tesseractでスキャンしようとしています。現時点では、T&Eのフォントは別ですが、これはかなり非効率的です。私はOCR *ファミリーのフォント、およびArialやGeorgiaなどのさまざまなフォントを試しました。 tesseractはOCR *フォントと混同される傾向があります。

Tesseract用に特別に設計されたフォント、またはそれとうまく機能するシステムフォントはありますか?

27
Chris Lloyd

さて、グーグルで検索すると、これ、特定のOCRフォントが出てきます: OCR Font

1973年に採用された標準のようです。

16
Paul Sonier

多くの異なるフォントとOCRエンジンを試した後、私は Consolas を使用して最良の結果を得る傾向があります。 OCR-Aのような等幅書体ですが、読みやすい人間のために。 Consolasは、いくつかのマイクロソフト製品に含まれています。

オープンソースフォント Inconsolata もあり、これは影響を受けるコンソラ。 Inconsolataは、特にライセンスの詳細を考慮すると、Consolasの優れた代替品です。

私のテストでは、 Calibri フォントの数字とスペースが常に正しく認識されていませんでした。 OCR-Aは多くの読み取りエラーを出しました。 MIRCはほとんどの人にとって簡単に読めるものではないため、試してみませんでした。

:tesseractは、信頼できる前に多くのテストと微調整を必要とします。私たちの場合、特に信頼性が非常に重要であり、複数の(ヨーロッパ)言語をサポートする必要があったため、商用ライセンスのOCRエンジン(ABBYY)に切り替えました。

更新:2017 1月31日-'based on Consolas'を '著作権の問題の可能性があるため、Consolasの影響を受けました。

14
Gawin

Calibriが最適です。私たちは自動システムでOCRソフトウェアを毎日使用し、Calibriが一貫して最高である数十のフォント(一部のOCR固有のフォントを含む)をテストした後。

幸運を。

5
Chris

銀行が小切手の下部にあるルーティング番号に使用しているものと同じフォントを使用するでしょう。

http://morovia.com/font/micr.asp

それは明確に機械可読になるように特別に設計されました。

4
benjismith

私は常に新しいローマを使用するだけで成功しました。

2
David

私は最近、Nuance OmniPageを使用するLaserficheと呼ばれるECMでこれについて大規模なテストを行っており、等幅フォントは動的間隔フォントに比べてパフォーマンスが低いことがわかりました。これらの古いOCRフォントは、「通常の」外観のフォントほど機能しません。特にポイント12のような小さいフォントサイズの数値の文字列の場合。

他の誰かがCalibriで成功しているのは奇妙です。私のテストではパフォーマンスが非常に悪く、日常的に似た文字と数字が混同されていました。最高のフォント(OfficeがインストールされたWindowsコンピューターに付属するフォントの中で)は、Consolas、Verdana、およびBook Antiquaでした。文字と数字が明確に区別されるすべての動的セリフフォント。コンソラがチャンピオンだった。

1
Glen Murie

現在モノスペースを使用しています。非常に多くのフォントを試しましたが、これが私にとって最も正確なフォントです。

0
Sam