SQLServerで重複する値を見つける方法

Question

SQL Server2008を使用しています。テーブルがあります

Customers customer_number int field1 varchar field2 varchar field3 varchar field4 varchar

...そしてもっとたくさんの列が私のクエリには関係ありません。

列customer_numberはpkです。重複する値とそれらの間のいくつかの違いを見つけようとしています。

同じであるすべての行を見つけるのを手伝ってください

1） field1、field2、field3、field4

2） 3つの列だけが等しく、そのうちの1つは等しくありません（リスト1の行を除く）

） 2つの列だけが等しく、そのうちの2つは等しくありません（リスト1とリスト2の行を除く）

最終的に、この結果と追加のgroupIdを含む3つのテーブルがあり、類似したグループでも同じになります（たとえば、3つの列が等しい場合、3つの同じ列が等しい行は別のグループになります）

ありがとうございました。

lc. · Accepted Answer

最も簡単なのは、重複する顧客の各グループを反復処理し、グループ番号ごとに一致するものをそれぞれ挿入するストアドプロシージャを作成することです。

しかし、私はそれについて考えました、そしてあなたはおそらくサブクエリでこれをすることができます。うまくいけば、私はそれを必要以上に複雑にしませんでしたが、これはあなたが重複の最初のテーブル（4つのフィールドすべて）を探しているものをあなたに与えるはずです。これはテストされていないため、少し調整する必要がある場合があることに注意してください。

基本的に、重複があるフィールドの各グループ、それぞれのグループ番号を取得し、次にそれらのフィールドを持つすべての顧客を取得して、同じグループ番号を割り当てます。

INSERT INTO FourFieldsDuplicates(group_no, customer_no) SELECT Groups.group_no, custs.customer_no FROM (SELECT ROW_NUMBER() OVER(ORDER BY c.field1) AS group_no, c.field1, c.field2, c.field3, c.field4 FROM Customers c GROUP BY c.field1, c.field2, c.field3, c.field4 HAVING COUNT(*) > 1) Groups INNER JOIN Customers custs ON custs.field1 = Groups.field1 AND custs.field2 = Groups.field2 AND custs.field3 = Groups.field3 AND custs.field4 = Groups.field4

他のものはもう少し複雑ですが、可能性を広げる必要があるためです。その場合、3フィールドグループは次のようになります。

INSERT INTO ThreeFieldsDuplicates(group_no, customer_no) SELECT Groups.group_no, custs.customer_no FROM (SELECT ROW_NUMBER() OVER(ORDER BY GroupsInner.field1) AS group_no, GroupsInner.field1, GroupsInner.field2, GroupsInner.field3, GroupsInner.field4 FROM (SELECT c.field1, c.field2, c.field3, NULL AS field4 FROM Customers c WHERE NOT EXISTS(SELECT d.customer_no FROM FourFieldsDuplicates d WHERE d.customer_no = c.customer_no) GROUP BY c.field1, c.field2, c.field3 UNION ALL SELECT c.field1, c.field2, NULL AS field3, c.field4 FROM Customers c WHERE NOT EXISTS(SELECT d.customer_no FROM FourFieldsDuplicates d WHERE d.customer_no = c.customer_no) GROUP BY c.field1, c.field2, c.field4 UNION ALL SELECT c.field1, NULL AS field2, c.field3, c.field4 FROM Customers c WHERE NOT EXISTS(SELECT d.customer_no FROM FourFieldsDuplicates d WHERE d.customer_no = c.customer_no) GROUP BY c.field1, c.field3, c.field4 UNION ALL SELECT NULL AS field1, c.field2, c.field3, c.field4 FROM Customers c WHERE NOT EXISTS(SELECT d.customer_no FROM FourFieldsDuplicates d WHERE d.customer_no = c.customer_no) GROUP BY c.field2, c.field3, c.field4) GroupsInner GROUP BY GroupsInner.field1, GroupsInner.field2, GroupsInner.field3, GroupsInner.field4 HAVING COUNT(*) > 1) Groups INNER JOIN Customers custs ON (Groups.field1 IS NULL OR custs.field1 = Groups.field1) AND (Groups.field2 IS NULL OR custs.field2 = Groups.field2) AND (Groups.field3 IS NULL OR custs.field3 = Groups.field3) AND (Groups.field4 IS NULL OR custs.field4 = Groups.field4)

うまくいけば、これで正しい結果が得られるので、最後の結果は演習として残しておきます。 :-D

Balaji Birajdar · Answer

これは、テーブル内の重複を見つけるための便利なクエリです。テーブル内で複数回存在するすべての電子メールアドレスを検索するとします。

SELECT email, COUNT(email) AS NumOccurrences FROM users GROUP BY email HAVING ( COUNT(email) > 1 )

この手法を使用して、1回だけ発生する行を見つけることもできます。

SELECT email FROM users GROUP BY email HAVING ( COUNT(email) = 1 )

Lieven Keersmaekers · Answer

異なるフィールド（field1 = field2など）で同等性チェックが必要かどうかはわかりません。
それ以外の場合はこれで十分かもしれません。

編集

テストデータを自由に調整して、仕様に応じて間違った出力を与える入力を提供してください。

テストデータ

DECLARE @Customers TABLE ( customer_number INTEGER IDENTITY(1, 1) , field1 INTEGER , field2 INTEGER , field3 INTEGER , field4 INTEGER) INSERT INTO @Customers SELECT 1, 1, 1, 1 UNION ALL SELECT 1, 1, 1, 1 UNION ALL SELECT 1, 1, 1, NULL UNION ALL SELECT 1, 1, 1, 2 UNION ALL SELECT 1, 1, 1, 3 UNION ALL SELECT 2, 1, 1, 1

すべて等しい

SELECT ROW_NUMBER() OVER (ORDER BY c1.customer_number) , c1.field1 , c1.field2 , c1.field3 , c1.field4 FROM @Customers c1 INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number AND ISNULL(c2.field1, 0) = ISNULL(c1.field1, 0) AND ISNULL(c2.field2, 0) = ISNULL(c1.field2, 0) AND ISNULL(c2.field3, 0) = ISNULL(c1.field3, 0) AND ISNULL(c2.field4, 0) = ISNULL(c1.field4, 0)

1つのフィールドが異なります

SELECT ROW_NUMBER() OVER (ORDER BY field1, field2, field3, field4) , field1 , field2 , field3 , field4 FROM ( SELECT DISTINCT c1.field1 , c1.field2 , c1.field3 , field4 = NULL FROM @Customers c1 INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number AND c2.field1 = c1.field1 AND c2.field2 = c1.field2 AND c2.field3 = c1.field3 AND ISNULL(c2.field4, 0) <> ISNULL(c1.field4, 0) UNION ALL SELECT DISTINCT c1.field1 , c1.field2 , NULL , c1.field4 FROM @Customers c1 INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number AND c2.field1 = c1.field1 AND c2.field2 = c1.field2 AND ISNULL(c2.field3, 0) <> ISNULL(c1.field3, 0) AND c2.field4 = c1.field4 UNION ALL SELECT DISTINCT c1.field1 , NULL , c1.field3 , c1.field4 FROM @Customers c1 INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number AND c2.field1 = c1.field1 AND ISNULL(c2.field2, 0) <> ISNULL(c1.field2, 0) AND c2.field3 = c1.field3 AND c2.field4 = c1.field4 UNION ALL SELECT DISTINCT NULL , c1.field2 , c1.field3 , c1.field4 FROM @Customers c1 INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number AND ISNULL(c2.field1, 0) <> ISNULL(c1.field1, 0) AND c2.field2 = c1.field2 AND c2.field3 = c1.field3 AND c2.field4 = c1.field4 ) c

Pierre-Olivier Pignon · Answer

重複するエントリを数えるために、そのような単純なものを書くことができます、私はそれが機能していると思います：

use *DATABASE_NAME* go SELECT *YOUR_FIELD*, COUNT(*) AS dupes FROM *YOUR_TABLE_NAME* GROUP BY *YOUR_FIELD* HAVING (COUNT(*) > 1)

楽しい

Anon · Answer

CUBE()を使用してこれを行うクリーンな方法があります。これは、列のすべての可能な組み合わせによって集約されます。

SELECT field1,field2,field3,field4 ,duplicate_row_count = COUNT(*) ,grp_id = GROUPING_ID(field1,field2,field3,field4) INTO #duplicate_rows FROM table_name GROUP BY CUBE(field1,field2,field3,field4) HAVING COUNT(*) > 1 AND GROUPING_ID(field1,field2,field3,field4) IN (0,1,2,4,8,3,5,6,9,10,12)

番号（0,1,2,4,8,3,5,6,9,10,12）は、グループ化セットのビットマスク（0000,0001,0010,0100、...、1010,1100）にすぎません。私たちが気にしているのは、4、3、または2つの一致があるものです。

次に、＃duplicate_rowsのNULLをワイルドカードとして扱う手法を使用して、これを元のテーブルに結合します。

SELECT a.* FROM table_name a INNER JOIN #duplicate_rows b ON NULLIF(b.field1,a.field1) IS NULL AND NULLIF(b.field2,a.field2) IS NULL AND NULLIF(b.field3,a.field3) IS NULL AND NULLIF(b.field4,a.field4) IS NULL --WHERE grp_id IN (0) --Use this for 4 matches --WHERE grp_id IN (1,2,4,8) --Use this for 3 matches --WHERE grp_id IN (3,5,6,9,10,12) --Use this for 2 matches