web-dev-qa-db-ja.com

Linux用のScan-to-PDFソフトウェア?

Fujitsu ScanSnap S5 ドキュメントスキャナーを使用して、紙のドキュメントをスキャンして検索可能なPDFにするワークフローがあります。私はバンドルされたソフトウェアの大ファンではありませんが、使用するのは非常に簡単です。紙の山を上に置き、緑色のボタンを押すと、検索可能なPDFが表示されます。

今、私はLinux(Ubuntu 10.10)で同様のことをしたいと思います。スキャナーは箱から出してサポートされています。

gscan2pdfXSaneを見てきました:

  • XSaneは強力に見えますが、ワークフローソリューションとしてはあまり適していません。
  • gscan2pdfは、「ボタンを押してPDFを取得する」という理想に少し近いですが、100%ではありません。

あなたが推薦できる他のソフトウェア(無料またはその他)はありますか?

18
NPE

今年の初めにこれを研究したときに私が見つけたいくつかのことがここにあります。申し訳ありませんが、評価が限られているため、複数のハイパーリンクを投稿することはできません。そのため、リンクについてはGoogleに問い合わせる必要があります。

gscan2pdf

バックエンドにさまざまなOCRエンジンを使用できる本当に良いGUIシステム。これはおそらくあなたのワンタッチソリューションに適合します(そしてdigitxpはすでにそれについて言及しています)。

Tesseract OCRエンジン

Gscan2pdfで使用できます。

Ocropus

ocropus は、広範囲にわたるトレーニングなしではテキストを認識していなかったため、あまり遠くまで行きませんでした。それはおそらく本には本当に良いでしょうが、請求書などでは私にはうまくいきませんでした。 YMMV。

楔形文字

Cuneiform で最高の成功を収め、次のワークフローのようなコマンドをスクリプト化することで検索可能なPDFを作成できました。

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

また、exactimageパッケージをインストールする必要があります。

PDFをOCRするためのさまざまなオープンソースプロジェクト Cuniform および hocr2pdf も同様です。

  • WatchOCR
  • Archivista

あなたが見つけたものを教えてください!

18
Eric Holmberg