Feeds XPath Parserを使用して大きなWebサイトをインポートする

Question

Feeds とその関連ツールを使用して、何千もの投稿があるWebサイトのコンテンツをインポートしようとしています。
すべてのリンクを含むページにアクセスして、コンテンツをインポートします。

URLとして<h2>http://premiumtemplate.org/kaboodle-premium-business-wordpress-theme.html</h2>を使用してコンテンツをインポートしようとしました。

以下は私が使用する関数です：

コンテキスト：/
URL：//h:h2
タイトル：//h:title
ボディ：//*[@class="entry"]

どうなるかわかりません。何もインポートされず、「新しいコンテンツはありません」というメッセージが表示されます。

Chris Pliakas · Answer

Feedsは非常に強力なモジュールであり、基本的なRSSアグリゲーター以上のものです。多くの人々がフィードを移行ツールとして活用し始めており、フィードのXPathパーサーは静的HTMLドキュメントをインポートする一般的な方法として浮上しています。このページをインポートするための簡単なパーサーを設定したので、この例があなたがやろうとしていることを助けることを願っています。

まず、フィードXPathパーサーを使用する場合は、デバッグオプションを有効にすることが重要です。これにより、さまざまなクエリで一致したテキストが表示されます。

debug options

次に、下の画像は、このページのインポートに使用したコンテキストクエリとXPathクエリを示しています。その結果、「question-page」クラスを含む要素の下のコンテンツとともにHTMLタイトルタグが取得されます。

settings

ヘッダー要素をプルする場合は、XPathクエリで「h1」、「h2」などを明示的に使用する必要があると思いますが、これについてはわかりません。このアプローチの欠点は、インポートするすべてのページにソースノードが必要になるか、プログラムで、またはSelenium、JMeter、Firefoxなどの自動ツールを使用してインポートフォームをバッチ送信する方法を見つける必要があることです。マクロなど.

googletorp · Answer

あなたが提供した限られた情報で良い答えを出すのは難しいです。

通常、フィードはスタンドアロンのページではなく、フィード（RSS）からインポートするために使用されます。ほとんどの場合、プレーンHTMLページではなく、フィードを見つけることが期待される方法でフィードを設定しています。