web-dev-qa-db-ja.com

Google Sheet IMPORTHTMLのテーブルデータをクリーンアップする方法は?

https://ru.wikipedia.org/wiki/Атомная_энергетика_по_странам から原子力出力の表をインポートしたい。

何らかの理由で、2番目の列の番号が重複しています。たとえば、

<td><span style="display: none; speak: none;">000935</span>
935</td>

<td>の最初の子のみを取得するためにIMPORTHTML()の動作に影響を与える方法はありますか?

同様に、2番目の表の最後の列で、Googleシートはこれを抽出します。

British Nuclear Fuels (англ.)русск.

テキスト(англ.)русск.を削除したい

必要なテキストは、再び<td>の最初の子にあります。

<td><a href="//en.wikipedia.org/wiki/British_Nuclear_Fuels" class="extiw" title="en:British Nuclear Fuels">British Nuclear Fuels</a>
<span style="font-size:95%; position: relative; top: .4em">&nbsp;<span class="ref-info" title="на английском языке" style="font-size:85%; cursor:help; color:#888;">(англ.)</span>
</span><span class="link-ru" style="font-size:80%; margin-left:-1.7em; position: relative; top: -.4em;"><a href="/w/index.php?title=British_Nuclear_Fuels&amp;action=edit&amp;redlink=1" class="new" title="British Nuclear Fuels (страница отсутствует)">русск.</a></span></td>

また、[7]のように、列見出しから括弧で囲まれた参照をクリーンアップしたい

1
  • 番号が重複しているのは、| {{~|001627}}1 627をソートする目的で〜wikiテンプレートを使用しているためです
  • 新しいより良いソート方法は: https://meta.wikimedia.org/wiki/Help:Sorting#Specifying_a_sort_key
  • source cleaned halved check 101240102 709 101240102709 102709 FALSEなどの数式でクリーンアップできました

次の式を使用します。

  • クリーンアップ:=REGEXREPLACE(TEXT(source,"0"),"^0+| ","")
  • 半分に:=replace(cleaned,1,len(cleaned)/2,"")
  • チェック:=cleaned=concat(halved,halved)

いくつかの値はチェックアウトされませんが、2つの半分の差は小さいため、大丈夫です

1