web-dev-qa-db-ja.com

LibreOfficeの光学式文字認識

紙の文書があります。 3つの列(現在の番号、名前、グレード)を持つテーブルを含むページがさらにあります。

スキャンして、16個のjpegドキュメントを取得しました。各jpegはスキャンされたページです。

次に、この表をExcel文書に挿入するために、各jpegをテキストに変換するOCRが必要です。

LibreOfficeとUbuntu 12.04を使用します。

3
Mihaita

Ubuntu Appsの Scanning and OCR ページにはいくつかの代替手段が示されていますが、 XSane Image Scanning Program または Simple Scan (通常、12.04およびそれ以前のバージョンにもプリインストールされています)および/または gscan2pdf 、ドキュメントをスキャンします。

私のお気に入りはgscan2pdfで、同じGUIで問題なくスキャン/ OCRプロセスに従うことができます。

enter image description here

スクリーンショットに対してOCRを実行しようとしていることに注意してください。

文書/画像をスキャンまたはインポートして、[ツール]メニューに移動し、OCRオプションを選択すると、OCRエンジンが求められます。最適な結果が得られるものを選択し、[OCRの開始]をクリックします。

enter image description here

次のスクリーンショットに示すのと同じタイトルのタブにOCR出力があります。

enter image description here

高品質の画像であっても、OCRは特定の文字の解釈に失敗する可能性があり、スペルミスの単語または単にエジプトの象形文字になる可能性があることに注意してください。大量のドキュメントをOCRするプロセスは、しばらく遅れる場合があります。

GScan2PDFでのスキャンとOCRのプロセスを説明する包括的なビデオへのリンクは次のとおりです。 http://www.youtube.com/watch?v=UjjogfWfWsQ

幸運を!

この質問に少し遅れて答えました。

しかし、このページにアクセスしてLibreOfficeのOCRソリューションを探している人のために、最近LibreOfficeのOCRプラグインであるLibreOCRを開発しました。

Indic-OCR プロジェクトの一部です。

拡張機能は LibreOffice Extensions Website から見つけることができます

3
RKVS Raman