web-dev-qa-db-ja.com

自動PDFタイトルに基づく名前変更

名前を変更する必要のある科学的なPDFが何千もあり、その多くにはメタデータがありません。フォルダを開いてから各PDFを開き、タイトルをコピーしてドキュメントの名前を変更し、新しいフォルダに保存できるオートマトンアクションを作成できるようにしたいと思います。私はこれを理解するために何時間も費やしてきたので、いや助けていただければ幸いです。私はApple G5 2.26Gz quad running os10.6ありがとう!

4
Ron

Mendeley 、科学出版物を管理できるオンライン調査ツールがあります。

PDFをドラッグアンドドロップできるMendeleyデスクトップツールがあります。 Mendeleyは、PDFから著者とタイトルを自動的に解析します。

enter image description here

次に、右クリックして[ドキュメントファイルの名前を変更...]をクリックすると、ファイルの名前を変更できます。複数のファイルの名前を一度に変更することもできます。

enter image description here

WindowsとOSXで利用できます。

7
slhck

外部ソフトウェアを使用せず、独自のスクリプトを作成したい場合は、PDFをテキストエディタでプレーンテキストとして開いてから、パターンを探してください。キーワード「title」を検索するか、タイトル内の単語を検索して、それらが表示される場所を確認します。

いくつかの例を挙げます(化学の科学雑誌):

ACS(American Chemical Society):キーワード「/ title」が2回出現した後、括弧の間にタイトルが表示されます

Wileyパブリッシング:タイトルは、キーワード「/ Title」が最初に(そして唯一)出現した後、角かっこで囲まれて表示されます

Rscパブリッシング:プレーンテキストのタイトルはありません。

スプリンガー:それはジャーナルに依存しているようです

私が読んだほとんどのジャーナルはwileyまたはacsからのものなので、状況は私にはかなり良く見えるでしょう。

これは計画かもしれません:1。あなたが最も頻繁にジャーナルを読む出版社からのPDFを研究します2.プレーンテキストでタイトルを持っているものを選びます。それらはすべてPDFの最後のキロバイトに名前が含まれているのでこれは問題ではないはずです3.スクリプトでそれらを管理します

読んだジャーナルの数に応じて、記事のタイトルにtitleタグを使用しますが、これは役立つ場合とそうでない場合があります。

より一般的なアプローチは次のようになります:pdf-> text-> parse textここから始めることができます: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

0
Luca Bardini

私があなたを正しく理解している場合、PDF (通常、要約および後続のテキストよりも大きな印刷で)そしてそれをファイル名として使用します。

PDFの先頭にタイトル以外のテキストの量が異なる可能性があり、抽出が困難になる可能性があるため、おそらく万能の解決策は見つかりませんさまざまなジャーナルからのPDFの実際のタイトル。

PDFの特定の割合で機能するソリューションを取得するには、おそらく

  • Ghostscriptのpdf2psとps2asciiを使用 PDFからプレーンテキストを抽出する
  • このプレーンテキストを解析して、最初の1キロバイト程度のどこかにあるジャーナルタイトルを探します。
  • ジャーナルに応じて、平文から紙のタイトルを抽出するヒューリスティックを考え出すようにしてください。

もちろん、PDFからプレーンテキストだけでなく相対的なテキストサイズも抽出できるツールを見つけることができれば、それもおそらく大いに役立つでしょう。

頑張ってください-それを自動化する方法を見つけるかどうかを確認するのは興味深いでしょう!自分で記事をダウンロードするときに私がする主なことは、体系的な方法で記事に名前を付けることですが、後でこれを行うための何かがあると素晴らしいでしょう...

0