web-dev-qa-db-ja.com

Tesseract OCR構成ファイルでサポートされているパラメーターを見つける方法

Tesseract OCRが使用する設定ファイルが受け入れるパラメータ、設定ファイルの書き方などを知りたい.

their site でこれに関するドキュメントを見つけることができません。サポートされているパラメーターとその意味を判断するにはどうすればよいですか?

17
sashoalm

以下のリンクでこれらの手順を見つけました。構成ファイルの記述と配置場所についてです。

構成ファイルは、BOMおよびUnix行末マークのない単純なテキストファイルです(Windowsでは、Notepad ++などの高度なテキストエディターを使用してこれを実現できます)。

Tesseract実行可能ファイルを使用する場合、これはtesseractパラメーターを変更する唯一の方法です。

構成ファイルは、tessdata/configsディレクトリーに配置する必要があります。いくつかの例をご覧ください。

すべての変数のリストと http://www.sk-spell.sk.cx/に各変数の説明がありますtesseract-ocr-parameters-in-302-version 。 Tesseract 3.02の場合です。他のバージョンでは状況が異なる場合があります。

Edit:また、上記のリンクが機能しなくなった場合に Pastebinリンク を追加します。

17
sashoalm

Tesseract v3.04は、コマンドラインオプション--print-parametersので、tesseract --print-parameters 678(!)構成可能なパラメーター、それらの既定値、および簡単な説明の一覧を取得します。

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_Word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more
10
chbrown

これは、Tesseract構成変数のスペースで区切られたキー/値のペアを含むプレーンテキストファイルであり、それぞれが別々の行にあります。例えば:

interactive_display_mode T
tessedit_display_outwords T

Tesseractの下に数字、hocrなどのいくつかの標準構成ファイルがあります tessdata/configs フォルダー。

8
nguyenq