web-dev-qa-db-ja.com

Tesseract:複数の言語でTesseractを一度に実行する方法

英語と日本語の両方のテキストを含む画像を分析する必要があります。デフォルト(eng)でtesseractを実行すると、一部の日本語文字が失われました。それ以外の場合、日本語(-l jpn)でtesseractを実行すると、一部の英語の文字が失われます(e.p.Email)。英語と日本語の両方の文字を認識する1つのプロセスを実行するにはどうすればよいですか。ありがとう。

14
pars

Tesseract 3.02以降、-lパラメーターに複数の言語を指定することが可能です。

-llang使用する言語。何も指定されていない場合、英語が想定されます。プラス文字で区切って、複数の言語を指定できます。 Tesseractは3文字のISO639-2言語コードを使用します。

例:

tesseract myscan.png out -l deu+eng
35
tobltobs