web-dev-qa-db-ja.com

EvernoteからOCRテキストを抽出する

Evernote 保存した画像に対してOCRを実行します。 Evernoteの画像に相当する全文を取得する方法はありますか、それともOCRは検索専用ですか?

13
Leigh Riffel

Evernote APIには、テキストと画像内に存在する長方形を取得する機能があります。 http://evernote.com/about/developer/api/evernote-api.htm を参照して、「Evernote認識インデックスXML形式」とそれを取得する関数を確認してください。問題は、彼らが従来のOCRを行わないことです...彼らのOCRアルゴリズムは、画像上の単一の「単語」に対して異なる単語を生成する可能性があります。彼らがそれを使用するのは検索だけなので、これは彼らにとっては問題ありませんが、認識エンジンとして使用するためには問題ありません。 (Wordの選択肢ごとに重みが与えられるので、それを使用できるかもしれません)

15

また、Evernoteは、特定の画像が正確に1つの単語に相当するとは明らかに判断しません。たとえば、Evernoteは、特定の画像が「手がかり」であり、「期限」ではないと判断しません。むしろ、両方を追跡し、どちらかを検索すると同じ画像が返されます。したがって、Evernoteはフルテキストが実際に何であるかを決定するのではなく、それが何であるかだけを決定するため、フルテキストに相当するものを取得する方法はありません。

11
Mike Dunham

evernoteは、ocr-stuffの作成者にまともな金額を支払いますOR何かを一緒に機能させるためにまともな金額を支払いました。したがって、抽出されたテキスト(+位置付け画像)。

(他の人の画像をスキャンして優れたOCRを提供するためのビジネスモデルである可能性があります:))

だから、答えは:いいえ。

5
akira

どれだけ高度な知識が必要かはわかりませんが、Adobe Acrobatも使用しているので、Evernote添付ファイルを右クリックするだけでAcrobatで開くことができます。

次に、Acrobat内から「ドキュメント| OCRテキスト認識」を選択し、ドキュメントをプレーンテキストとして保存します。

たまにOCR変換が必要なだけなので、これは私にとってはうまく機能します。

2
Bruce Kessel

Evernoteからすべての画像を取得できる場合は、Googleドキュメントを使用してOCRを実行できます。

画像のフォルダをGoogleドキュメントにアップロードして、画像とOCRedテキストの両方を含むドキュメントに変換することができます。

次に、これらすべてのドキュメントをプレーンテキストとしてバッチダウンロードできます。これにより、画像が削除されます。

すべてのEvernote画像にハッシュで名前を付ける場合(例:md5)、Googleドキュメントからダウンロードしたプレーンテキストファイルを元の画像と簡単にリンクできます。

1
Max Masnick

私はWindowsを使用していて、Adobe Acrobat ProとWordを使用しているので、次のことを行います。

  1. ファイルがJPGとして保存されていない場合は、Evernoteで画像の左上隅にある目のアイコンをクリックしてフォトビューアで開き、[ファイル]> [コピーを作成]をクリックしてJPGとして保存します。
  2. エクスプローラーで画像ファイルを参照します
  3. それを右クリックして、[Adobeに変換]を選択しますPDF(ファイルはAcrobatで開きます)
  4. [ファイル]> [名前を付けて保存]をクリックし、[ファイルの種類]ドロップダウンから[リッチテキスト形式]を選択して、リッチテキストファイルとして保存します(ファイルの処理には1分かかります)
  5. エクスプローラでRTFファイルを参照し、ダブルクリックしてWordで開きます
  6. 必要に応じて編集
0
Pete Nikolai