web-dev-qa-db-ja.com

pdf2htmlEXを使用してPDFをHTMLに変換する:出力SEOは使いやすいですか?

私のチームと私は pdf2htmlEX変換 を実装して、Webサイトで200k以上のpdfドキュメント(データベースで利用可能)を変換して表示しています。

Pdf2htmlEXによって生成されたHTMLは「ページ内」に配置され、各ドキュメントの最大3ページまで検索エンジンによってクロール可能です。今日、お知らせするために、PDFの代わりにPNGのコレクションを表示しています。

Pdf2HTMLExライブラリはUXの点では優れた機能を発揮しますが、生成されるHTMLテキストは<span>および<div>タグでいっぱいであり、Googleが理解するのが困難になる場合があります。

このような:

21. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

私の質問は:

  • これにより、Google SEのポジショニングで問題が発生しますか?あなたの意見では、PNGのリストを持っているよりも良いですか?
  • それとも、この「汚れた」HTMLは悪いSEOテクニックのように見え、ペナルティのリスクを負いますか?
3
riccardo80

SEOに関して言えば、テキストは何もないよりも優れています(png)。 pdf2HTMLExの出力は人間には恐ろしく見えますが、ボット(googleクローラーなど)、その非常に重度にマークされたサイト、ほとんどの場合、ボットはマーキングを無視します(テキストの色、可視性、フォントサイズなどの場合を除く)可読性に影響します)。

しかし、より大きな問題は、タグが多すぎることではなく、重要/キーワードがしばしばタグ間で分割される方法にあります。

そうは言っても、pdf.jsという別の代替手段があります。これは、懸念事項の一部に対処できるテキストのレイヤーを使用します。 pdf2htmlexpdf.jsの両方の出力を試して、どちらがより良いかを確認してください。

1

Divとspanが心配な場合は、削除できます。 Pandoc のようなツールにHTMLを渡すことをお勧めします。

Pandocはコマンドラインファイルコンバーターです。PDFを入手したら、Pandocコンバーターを使用してHTMLをMarkdownに変換してから、HTMLに戻すことができます。これにより、不要なタグがすべて削除され、マークアップが大幅にクリーンアップされます。

Bashを使用している場合、この行で実行する必要があります。

cat example.html | pandoc --from=html --to=markdown | pandoc --from=markdown --to=html

SEOに関する限り、それが重要になるかどうかはわかりません。さらに重要なのは、セマンティックマークアップとコンテンツの品質です。品質はPDFと同じくらい良いでしょう。とにかく、html2pdfツールが非常に意味のあるマークアップを提供してくれるとは思いません。最も重要なのは、テキストが機械可読であることであり、spanタグとdivタグに関係なく、そうであるべきです。