web-dev-qa-db-ja.com

Linuxの2つの未ソートリストを比較し、2番目のファイルに一意のリストを表示する

番号のリスト(電話番号)を持つ2つのファイルがあります。

私は最初のファイルに存在しない2番目のファイルの番号をリストする方法を探しています。

私はさまざまな方法を試しました:

comm (getting some weird sorting errors)
fgrep -v -x -f second-file.txt first-file.txt (unsure of the result, there should be more)
32
mvrasmussen
grep -Fxv -f first-file.txt second-file.txt

基本的に、second-file.txtのどの行にも一致しないfirst-file.txtのすべての行を探します。ファイルが大きい場合は遅くなる可能性があります。

また、ファイルを並べ替えると(数値の場合はsort -nを使用)、commも機能するはずです。どのエラーが発生しますか?これを試して:

comm -23 second-file-sorted.txt first-file-sorted.txt
61
Hari Menon

commを使用する必要があります:

comm -13 first.txt second.txt

仕事をします。

追伸コマンドラインの最初と2番目のファイルの順序が重要です。

また、次の前にファイルをソートする必要がある場合があります。

comm -13 <(sort first.txt) <(sort second.txt)

ファイルが数値の場合は、sort-nオプションを追加します。

23
rush

これは動作するはずです

comm -13 <(sort file1) <(sort file2)

Sort -n(数値)は、内部でsort(英数字)を使用するcommでは機能しないようです。

f1.txt

1
2
21
50

f2.txt

1
3
21
50

21は3列目に表示されます

#WRONG
$ comm <(sort -n f1.txt) <(sort -n f2.txt)   
                1
2
21
        3
        21
                50

#OK
$ comm <(sort f1.txt) <(sort f2.txt)
                1
2
                21
        3
                50
7
cat f1.txt f2.txt | sort |uniq > file3
1
tom