web-dev-qa-db-ja.com

ウィンドウは、重複を削除するための大きなテキストファイルの編集のヘルプが必要です-50GB以上でテキスト作業を組み合わせる

私はウィンドウズ2012を持っています
32GB RAM I7 CPU Prossesor 1TB SSHD

ワードリストの.txtファイルが2GBから50GBで始まる行にあります

どのようなツールまたはプログラムがその大きなサイズ/行で動作してすべてのファイルを1つのファイル.txtに結合し、次にその1つのファイル.txtで動作します。これはすべて結合/マージ後に100GBになる可能性があります

causeSinstiveで重複行を削除し、クラッシュしたり、フリーズしたり、遅れたりしないようにするには?私はそのような質問をしたことを知っていますが、私は簡単なことは何も得られませんでした

助けてください私は人々が使用するcmdコードをあまり理解していないので、可能であれば誰かがプログラムについて教えてくれれば問題なく、またはcmdの方法で初心者に簡単に説明できます

私がステップごとに行う必要があることと、最後にそれを行う方法のように、私は何かが必要です私のPCをクラッシュさせたり、非常に遅くしたりしないでください

私はこれまでemeditorを試しましたが、10GBファイルでは動作せず、起動が非常に遅くなりました。助けてください

1
DeathRival

Windows用の巨大なtxtワードリストを管理するための最良のツールは次のとおりです。UnifiedListManager(ULM)

[〜#〜] ulm [〜#〜]

重複や他の多くの便利なものを並べ替え、マージ、分割、削除できます。

1
Joe6pack

あなたはすでにここでそれを尋ねました: 10GB以上の大きなtxtファイルを1つのtxtファイルにマージし、この1つのtxtファイルから重複する行を最も速く削除する方法は?

Linux(UbuntuやMintなど)をダウンロードしてCDに書き込むか、起動可能なUSBドライブを作成してから、インストールせずに起動することをお勧めします。次に、私がここで推奨したことを行うことができます https://superuser.com/a/1250792/71521

または、Windows 10 Linux Bashシェルをインストールします: https://www.howtogeek.com/249966/how-to-install-and-use-the-linux-bash-Shell-on-windows-10/
ここにあるコマンド https://superuser.com/a/1250792/71521 は機能するはずですが、これらは本当に基本的なLinuxコマンドです。

編集:Win10 proでテストしました(OSについては言及していません)。ステップバイステップでWindowsLinux Bashをインストールし、ファイルaa.txtとbb.txtをnewfile.txtにマージして、重複を排除します(ファイルがC:\ tempにあると仮定)。

  1. Win+i 設定を開くには
  2. 更新とセキュリティ->開発者向け:開発者モードを選択
    • 開発者モードがインストールされます
  3. Win+R ->「コントロールパネル」->入力
  4. プログラムと機能の左側の「プログラム」または「Windows機能のアクティブ化」
    • 「WindowsSubsystemforLinuxBeta」を選択します
  5. リブート
  6. 押す Win 次に「bash」を検索して開きます
  7. 「Y」で答える必要のあるプロンプトがいくつかあり、パスワードを使用してユーザー名を定義するように求められます
    • bashがインストールされました。
    • ドライブC:が/ mnt/cで利用できるようになりました。
  8. cd /mnt/c/temp/(またはパス)を書き込んでからEnterキーを押します
  9. cat aa.txt bb.txt | sort -u > newfile.txt と書く
    • それが機能しない場合は、最初にファイルをcat aa.txt bb.txt > tempfile.txtで1つのファイルにマージしてから、sort -u tempfile.txt > newfile.txtのような並べ替えコマンドを実行してみてください。
0
chloesoe