web-dev-qa-db-ja.com

Google DocからテキストをHTMLとしてエクスポートする方法は?

多数のリンクを含むGoogleドキュメントに本文があります。クライアントのCMSにテキストとすべてのリンクを取得する必要があります。

残念ながら、Google DocsはもはやユーザーがHTMLをエクスポートすることを許可していないようです。 「ダウンロード」>「Webページ(.html、zip)」を試し、そのファイルをText Wranglerにアップロードしてクリーンアップしましたが、リンクはすべてスクランブルされています。たとえば、Twitter.com/sreeは次のようになります。

<a href="https://www.google.com/url?q=https://Twitter.com/sree&amp;sa=D&amp;ust=1465095908840000&amp;usg=AFQjCNHpFpNdY6Hsr5xrZZlF5vCGTGIt6w">Sree Sreenivasan</a>

すべてのリンクに手動でアクセスして再実行するのではなく、Googleドキュメントから必要なhtmlコードを取得する方法はありますか?

2
Abigail Edge

Text Wranglerでは、次のような正規表現を使用できます。

<a href="https://www.google.com/url\?q=(.*)\&amp;sa(.*)">(.*)</a>

で置き換えます:

<a href="$1">$3</a>
2
Mantisse

GoogleドキュメントのリンクをHTMLに変換する場合は、Gd2md-htmlアドオンを試してみてください(完全開示:これを開発しました): https://github.com/evbacher/Gd2md-html/wiki

リンクを含むGoogleドキュメントからテキストのセクションを選択し、それをHTMLに変換できます。たとえば、Googleドキュメントのこのセクション:

enter image description here

この比較的きれいなHTMLに変換します。

<h2>Markdown syntax, standards information</h2>
<ul>
<li>Basic Markdown syntax from John Gruber, the inventor of Markdown: 
<a href="https://daringfireball.net/projects/markdown/syntax">https://daringfireball.net/projects/markdown/syntax</a>
<li>CommonMark standard: <a href="http://commonmark.org/">http://commonmark.org/</a>
1
evb