web-dev-qa-db-ja.com

フォーマットを失わずにPDFからテキストをコピーする方法

PDFファイルからテキストエディタにテキストをコピーすると、さまざまな方法で文字化けしてしまいます。太字や斜体のようなフォーマットは失われます。段落内の改行は、改行に変換されます。 2行にまたがって単語を区切るダッシュは、そうであってはいけない場合でも保持されます。一重引用符と二重引用符は、兆候。

理想的には、PDFからテキストをコピーして、フォーマットをHTMLコードに変換し、 "スマート引用符"を "and"に変換し、改行を正しく実行できるようにしたいです。これを行う?

39
Colen

まず、PDFが何であるかを理解する必要があります。 PDFは印刷されたページを模倣するように設計されており、それらは設計されています のみ 入力フォーマットではなく、出力フォーマットとして。 a PDFは基本的に、文字(個々の文字や句読点など)や画像の正確な位置を含むマップです。 ほとんどの場合、PDFはどこに情報を保存していません。 ワード ソフトブレークとパラグラフ終了のハードブレークのような関係ははるかに少なくなります。

(最近のPDFにはこのことに関する情報が保存されているものもありますが、これは新しいテクノロジです。そのようなPDFを見つけることができて幸運です。あなたのPDFビューアはそれについて知らないかもしれません。)

とにかく、個々の文字の位置からWordや段落などを抽出するためのある種の「人工知能」を実装するのはあなたのソフトウェア次第です。別のソフトウェアが他のソフトウェアよりもこれをうまくやろうとしています、そしてそれはPDFがどのように作られたかにも依存するでしょう。いずれにせよ、あなたはすべきです 決して 完璧な結果が期待できます。出力PDFを持つことは、ソースドキュメントを持つことと同じではありません。可能であればそれを取得しようとする方がはるかに良い。

この種の問題に対する標準的な解決策は、Adobe Acrobat Professional(高価なもので、無料の読者ではない)を使用してPDFをHTMLに変換することです。それでも、完璧な結果が得られるわけではありません。

いくつかのフォーマットをそのままにしてPDFからテキストを抽出するために使用できるフリーソフトウェアがありますが、ここでもまた、完璧な結果を期待することはできません。例えば、 calibre(RTF formatに変換可能)、pdftohtml/pdfreflowを参照してください。 または AbiWordワードプロセッサ (すべてのインポート/エクスポートプラグインが有効になっている場合)。 OpenOffice用のPDFインポートプラグインもあります。

しかし、これらの結果のいずれにも完全性を期待しないでください。あなたはここで穀物に反対しています。 PDFは、編集可能な入力フォーマットとしては意味されていません。

53
frabjous

もう一つの選択肢は、無料のPDFビューアであるFoxit(その良い)をダウンロードして使い始めることです。それから、「名前を付けて保存」して.txtを選択してテキストファイルに変換します。それはすべてのフォーマットを保存します。私はFoxitに変換したとき私はしばらく前にそれを使用して停止したので、あなたがアドビで同じことができるかどうかDunno。

8
chris

Sej-daというとても良いオンラインツールがあります。それはAdvanced PDF Manipulationを扱います。ダウンロードするソフトウェアはありません。これはnewオンラインツールなので、現在まだベータ版です。それはあなたがPDFからテキストを抽出することを可能にするだけでなく、他の無数のPDF機能を提供することを可能にします

http://www.sejda.com/

2012年11月14日にリビジョン3でsejda関数の簡単なビデオレビューが行われました。

http://revision3.com/tzdaily/sejda-online-pdf

5
Simon

ブラウザでPDFファイルを開き(GoogleクロムとFirefoxがテスト済み)、そこにテキストをコピーします。

4
harsini

これにはAdobe Acrobat Proを使用できます。

テーブルの場合:Acrobat 9/10では、テーブル選択機能がありました。 Acrobat Xでは、[名前を付けて保存]> [表計算]> [Excel]をクリックするだけです。ページを1つの長いスプレッドシートに連結することさえあります。素晴らしい機能です。

テキストの場合:MS Wordにエクスポートするための同様の機能があります。名前を付けて保存> Word> Wordの文書。

出典:

4
user156787

私はこれがとても便利だと思った( 改行を削除する ):

手動ですべての改行を削除しなくても、これを素早く解決するための便利なコツがあります。基本的には、不要な改行をすべて自動的に1つのスペースに置き換えて、すべてのテキストを1つの段落にまとめます。

1 - PDFから必要なテキストをコピーします。

2-新しいWord文書に貼り付けます。

3-「編集」をクリックしてから「置換」

4-「検索対象」フィールドにいることを確認します

5-「詳細」をクリックしてから「特別」をクリック

6-「段落記号」を選択します(リストの一番上)

7 - 「置換」フィールドをクリックします

8 - スペースバーを1回押す

9 - 「すべて置換」をクリック

10 - [OK]をクリックしてから、[検索と置換]ボックスを閉じます。

0
sky-light

Foxitは、元のファイルを通常のPDFとして表示するか、Ctrl + 6を押すことでテキストとして表示するかを切り替えます(テキストモードのズームレベルを少し変更するだけで、読みと書きの間で前後の位置があまり変わりません)。コピー)

0
Stoatly