web-dev-qa-db-ja.com

PDFドキュメントから非ラテン文字をコピーできません

ラテン語以外のヨーロッパ文字を含むPDFファイルがあります。ハイライトツールを使用してテキストをコピーし、それを別のプログラム(Word、メモ帳)に貼り付けると、「特殊」文字が正しく転送されません(代わりに他の奇妙な文字が表示されます)。

AcrobatReaderとFoxitの両方からテキストをコピーしてみました。

これをコピーするためにここでできることはありますか?

ありがとう

7
UpTheCreek

通常PDF Unicodeテキストを含むドキュメントは、テキストを文字として保存しませんが、使用されるフォントのグリフ(文字の形)への参照として保存します。フォントをPDFドキュメントUnicodeフォントは、Acrobatによっていくつかの小さなフォントに変換されることもよくあります。したがって、1つのフォントのみを使用する場合でも、これらの参照は、元のフォントのグリフではなく、いくつかの小さなフォントのグリフを参照する場合があります。

UnicodeテキストをAcrobatから別のアプリケーションにカットアンドペーストする場合、Acrobatは文字の形からUnicode文字を再構築するのに十分な情報を必要とします。使用されるフォントに Adobe Glyph Naming Convention に従って名前が付けられたグリフがある場合、Acrobatはこれらの名前(PDFドキュメント)にも保存されます)を解析してUnicodeを再構築できます。残念ながら、標準のWindowsフォントを含め、この規則に従わないUnicodeフォントが多数あるため、これが不可能な場合があります。

タグ付きPDF ファイルはテキストのUnicodeへの信頼性の高い翻訳も保証します-したがって、Unicodeテキストを切り取って貼り付けることができるはずです タグ付きPDF ファイル。

したがって、将来この問題を防ぎたい場合は、非ラテンUnicodeテキストを含むドキュメントからPDFを作成するときに、常にPDFファイルをタグ付きPDFそして、Adobe Glyph Naming Conventionに従って名前が付けられたグリフで作成されたフォントのみを使用してみてください。これを行うと、Unicode PDFドキュメントは検索可能であり、そのtexrはそれらからテキストを確実に切り取って貼り付けることができます。

3
Chris Fynn

私の場合、pdfからコピーするときに、ś、ć、ł、ęなどのポーランド語の文字が壊れていました。

多くのオプションをテストしました。本当にうまく機能したのは https://online2pdf.com/convert-pdf-to-rtf# だけでした。

したがって、他のソリューションで物事を変換しようとして時間を無駄にしたくない場合は、これを使用することをお勧めします。

2

おそらく、最新バージョンのPdfライターでは、Unicodeテキストをコードポイントとして埋め込むことはできず、OpenTypeフォントのグリフのみがPDFドキュメントに埋め込まれます。

1
Hariram

最も可能性の高い答えは、PDFドキュメントのテキストに適切な文字が含まれていないことです。表示されるのは、PDF、コピー元のテキスト、および画像で得られるものとは限りません。あなたが見るのは2つの異なるものであり、多くの場合、そのテキストは画像の単なるOCR読み取りであり、おそらく非ラテン文字を認識しません。

0
Emil

中国語のPDFで、Adobe Readerを使用して文字をコピーして貼り付けることができませんでした。しかし、Adobe AcrobatProfessionalでPDFを開くと、成功しました。 Readerではなく。

0
skibulk

エンコーディングの問題のようです。両方のファイルがUnicodeエンコーディング(おそらくUTF-8)に設定されていることを確認してください。 Acrobat Readerでこれを行う方法は完全にはわかりませんが、メモ帳とWordでこれを設定できます。

エンコーディングの詳細については、 http://www.text-editor.org/encoding.htm を参照してください。

0
EJP