web-dev-qa-db-ja.com

PDFコピー貼り付け時にテキストが文字化けする

PDFファイルからテキストをコピーして貼り付けようとしています。

ただし、元のテキストを貼り付けると、文字化けした文字が非常に乱雑になります。テキストは次のようになります(これは1つの小さな抜粋です)。

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

AdobeとFoxitの両方で試してみましたPDFリーダー。AdobeReaderで「テキストとして保存」を実行しました。結果のテキストファイルは文字化けしたテキストと同じです。

このテキストを文字化けしないようにするにはどうすればよいですか? (手動入力以外...抽出するテキストがたくさんあります。)

27
ngm

これを回避する最も簡単な方法は、Googleの最新バージョンでファイルを開くことですChrome組み込みPDFプラグインを読み取る。次に、Chromeの検索機能を使用してテキストを検索でき、コピーと貼り付けが正しく機能します。

シキの回答に対するピピタスのコメントに投票したいのですが、資格がありません:(問題は、暗号化ではなくカスタムフォントエンコーディングである可能性があります 。Acrobatで、[ファイル]-> [プロパティ]をクリックし、[フォント]タブをクリックしてエンコードを確認し、[セキュリティ]タブをクリックして暗号化されているかどうかを確認します。

11
acatalept

私が作成したPDFでこの問題を発見し、問題の原因を突き止めたと思います。MacOS Xのプレビューを使用してPDFファイルサイズを縮小します。

Colorsyncユーティリティを使用していくつかのQuartzフィルターを作成し、PDF内の画像を圧縮して、画像付きPDFの全体的なファイルサイズを縮小しました。ここで説明されているような: http://www.macosxhints.com/article.php?story=2003110613385269

元の(非圧縮)ファイルからテキストを簡単にコピーして貼り付けることができることがわかりましたPDFファイルですが、実行した後PDF私が作成した結果の圧縮されたPDFは貼り付けを明確にコピーしません(投稿した文字列のように見えます)。

ただし、同じオリジナルのPDF Adob​​e Acrobat Proの[ドキュメント]> [ファイルサイズの縮小]機能を実行すると、圧縮されたPDFでテキストを正常にコピーして貼り付けることができます。

したがって、これはあなたのケースでは完全には役に立ちません。あなたのPDFファイルが他の場所から受信され、実際に何らかの方法で圧縮されている場合、元のバージョンにアクセスできないと仮定します。しかし、それは説明かもしれません-ファイルサイズを小さくしようとしてファイルがどういうわけか壊されたのです。

これは、PDFからのテキストのコピーと貼り付けで同様の問題が発生しているコンテンツ作成者に役立つ場合があります。OSX Quartzフィルターを使用してPDFを縮小するように注意してください。

--edit-- PDFとプレビューを組み合わせるときにもこの問題に気づきました。 2つのソースPDFはコピーして貼り付けることができますが、1つのファイルから別のファイルにページをドラッグしてから結合されたPDFを保存すると、結合されたドキュメントのテキストをコピー/貼り付けできません。これらは両方ともMac上のFilemaker Pro 11で同時に生成された2つのドキュメントです-異なるエンコーディングやそのようなものがあるとは思えません。

4
Daniel

回避策を作成する別の非常に簡単な方法があります:)

CutePdf、Adobe 2 Pdfプリンター、または同様のものを使用してドキュメントを印刷するだけです。一番下の行は、あなたはPDF形式に印刷する必要があるということです。

多くの場合、問題は簡単に解消されます。

4
Nick Olszanski

私のために働いた解決策:

  • ドキュメントをGoogleドライブ/ドキュメントにアップロードします
  • Googleはそれを(2013年の時点で)PDFとしてインポートします
  • PDFビューを開いてFile> Open With> Google Docsを選択します
  • ドキュメントのエクスポートには約1分かかります

結果は完璧ではありませんでしたが、80%到達し、すべてを書き直す必要がない十分なテキストを提供してくれました。

3
Gavin Miller

解決しよう:(Windows 8、Acrobat XI、Office 2010で私のために働いた)

オプション1:

  1. 「Microsoft XPS Document Writer」を使用してAcrobatから印刷する出力は「your file name.oxps」です。
  2. XPS Viewerで「... oxps」を開きます。 *(下のコメントのダウンロードリンクを参照してください)
  3. 最高解像度(600 DPI)を使用してPDF(Acrobat PDFまたはCutePDF)に印刷します。
  4. Acrobatで開き、OCR(Searchable Image(Exact))オプションを使用します。

ビンゴ!

コメント:

  • 最高の解像度と検索可能な画像(正確)を使用すると、きれいな外観を失うことなくテキストを保存できます。低解像度ではテキストは読みやすくなりますが、見た目はひどいものになります。
  • Microsoft XPS(ファイル)をダウンロード: http://www.Microsoft.com/en-us/download/details.aspx?id=11816
  • OCRとは何か、検索可能な画像(正確)の場所、または「Microsoft XPS Document Writer」を使用して印刷する方法がわからない場合は、自分でGoogleを使用して、最高の体験をしてください。

* XPSがインストールされていない場合のみダウンロードしてください。

オプション2:

同様に、画像(png、tiffなど)として保存すると、すべてのページを1つの「PDF」ファイルに結合する必要があります。

2
user210118

Google docsにアップロードし、オプションView> Plain HTMLを使用して、コピー可能なテキストを80%程度に修正し、少しのスペースが欠けているようにします。

これ受け入れられた回答のスレッドと同じ問題これを実際の例で説明します。

1
Ankit

情報がまったく取得できないリスクがあります。 PDFドキュメントは基本的に、1つのドキュメントを別のドキュメントの上に重ねたもので、もう1つは単純なテキスト、もう1つは画像です。ドキュメントからコピーして貼り付けると、画像を見ながらテキストにマークを付けますが、コピーされたものはクリップボードには、対応するテキスト部分があります。

ドキュメントの作成方法によって、テキスト部分の品質と可用性は大きく異なります。ワードプロセッサドキュメントをPDF形式、Acrobat、Word、PDFプリンタドライバまたはその他の方法を使用して)保存した場合、品質は通常優れています。テキストファイルはオリジナルのテキストから作成できるため、一部の特殊文字が歪む可能性がありますが、通常はプレーンテキストで問題ありません。

ただし、ドキュメントがスキャンされた画像から作成された場合、テキストパーツは通常、画像のOCR処理によって作成されます。これは、特にオリジナルが目的に対して最適ではない場合、かなり残念な結果になる可能性があります。

PDFの作成に使用された不正なプログラム、または誤った設定により、テキスト部分が完全に文字化けする可能性があります。これは、ファイルの作成後に何らかの暗号化が実行される可能性があるためです。

つまり、ドキュメントのテキスト部分が本当に悪い場合、それを改善する方法はありません。あなたの最善の策は、テキスト部分を完全に削除し、プログラムにOCRプロセスをやり直すことです。私はそれをAcrobat内から実行できると思いますが、完全にはわかりません。

1
Emil

これの考えられる理由の1つは、PDFに埋め込まれたフォントが、PDFからテキストをコピーするときに正しく適用されないカスタムエンコーディングを使用していたことです。

さまざまな方法を適用して、すべてのコンテンツを手動で入力する手間を省くことができます。

  1. 「ネット全体からダウンロード可能な「pdftotext.exe」ツールの1つを使用してテキストを抽出しようとしましたか? (私は ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.Zip に含まれているものをお勧めします)。
  2. Acrobat Readerの最新バージョンには、オプション"テキストとして保存..."があります。これは「コピーアンドペースト」(文字化けしたテキストを使用)を使用していませんが、renderingに使用されているのと同じソフトウェアルーチンを使用している可能性があります。画面上のテキスト。そのため、より使いやすい結果が得られる場合があります。
  3. 「2」の場合が機能せず、Acrobat Professionalにアクセスできる場合:フォント埋め込みDistillerプロファイルの1つを使用してPDFを再蒸留してみてください。
  4. 「3」の場合Acrobat Professionalにアクセスしているにもかかわらず機能しない:PDFを再抽出してみますが、今回は「画像として印刷」オプションを使用する必要があります(メインプリントの左下隅にある[詳細]ボタンから利用可能)ダイアログ)。必ず600dpiを使用してください(ただし、巨大なファイルが生成される可能性があります)。結果のPDF次に、Acrobat Proで再び開きます。ここで、Acrobatの「OCR」アルゴリズムをファイルに適用すると、埋め込みテキストが生成されます(Readerの画面上でのレンダリングには使用されませんが、文字列の検索と強調表示に使用されます。これで、上記の方法のいずれかを使用して、このPDFからテキストの抽出を再試行できます。
1
Kurt Pfeifle

私のオフィスではまだサポートされていないため、Googleドキュメントオプションを試していません。ただし、ファイルを「ScanSoft PDF Create!」から「Acrobat 9」(ファイル全体をイメージに印刷)に印刷し、印刷されたファイルを「Nuance PDFコンバーター(イメージファイルを検索および編集可能にするかどうかを尋ねるメッセージが表示されたので、選択しました)、簡単にコピーして貼り付けることができるWord文書を作成できました。完璧ではありませんが、精度は約80〜90%ですが、修正できない元のPDFファイルと比較してオフセットすることができます。入力全体の時間を節約できます。 2c。

1
Jhonrie

ユーザーの1人が同じ問題を報告しました(PDFはDistiller for Windowsで作成されました)。コピーされたテキストは文字化けしたテキストであり、ドキュメント内を検索できませんでした。 Macを試してみましたが問題は見つかりませんでした。結局のところ、私はAppleのプレビューアプリケーションを使用しているのに対し、彼はWindowsマシンでAdobe Readerを使用しています。次に、MacでAdobe Readerを試しましたが、同じ効果に直面しました。私にはそれは次のようになります:

  • Adobe Readerは保存されたテキストをコピーして検索しています。

  • Appleのプレビューは、エンコーディングベクトルを適用した後にコピーして検索します。

はっきりとは言えませんが、それは私の観察を説明するでしょう。そして、ここの別の投稿で説明されているように、結合されたファイルまたは縮小されたファイルを保存するときに、実際にあらゆる種類のエンコーディングを作成できます。プレビューを使用すると、テキストを再び取得できます。

最初に、内部に穴を残して元の文字の場所を使用するのではなく、埋め込みフォントサブセットを連続したエントリとしてエンコードする方がより論理的だと思いました。しかし、私は、元のエントリを持つフォントサブセットにエンコーディングベクトルを使用することにより、頻繁に使用される文字のバイトが1に設定されたビットが少なくなり、より適切な方法で圧縮できることを認識しました(エントロピーを低下させる可能性があります)全体的なテキストはこのように)。

1
Reuti

古いバージョンのScansoft PDF Converter for Windows XP)でいくつかの編集可能なテキストのPDFを作成し、Macのプレビュープログラムでページを結合しました。個別のページごとに、検索、コピー、 MacのAdobe Readerからテキストを正しくエクスポートします。プレビューで組み合わせて1つのファイルとして保存すると、すべてが画面上で適切に表示されましたが、正しく検索/エクスポートできるのはほんの数箇所だけでした。

ここの投稿は私にいくつかの良い指針を与えてくれました(ありがとう!)。フォントのファイルプロパティを確認しました。 Win XP(すべてが順調)の単一ページファイルは、エンコーディングがANSIであると述べました。プレビューで結合されたファイル(コピーされたテキストが文字化けする)は、ほとんどのフォントのエンコーディングを "Built -in」、「Roman」など。

私の問題の解決策はいつも私の頭の中にありました— Scansoftプログラム自体がファイルを組み合わせることができます。 Scansoftのコンバイナーを使用し、Macでファイルを開くと、すべてのフォントがANSIエンコードされて表示され、すべてのテキストが完全にエクスポート/コピーされました。なぜ地球上でPDF Converterで最初にそれらを結合しなかったのか、私にはわかりません。ありがとう、ポスター!)

Linuxシステムでファイルを開く場合も同様です。

PDFに似たような起源が混在していない限り、これはWindowsのみの問題を説明していないことは知っていますか?

0
Jimbo