web-dev-qa-db-ja.com

postgresql COUNT(DISTINCT ...)非常に遅い

非常に単純なSQLクエリがあります。

SELECT COUNT(DISTINCT x) FROM table;

私のテーブルには約150万行あります。このクエリはかなりゆっくり実行されます。約7.5秒かかります

 SELECT COUNT(x) FROM table;

約435msかかります。パフォーマンスを改善するためにクエリを変更する方法はありますか?私はグループ化して定期的なカウントを行い、xにインデックスを付けてみました。両方の実行時間は同じ7.5秒です。

124
ferson2020

これを使用できます:

SELECT COUNT(*) FROM (SELECT DISTINCT column_name FROM table_name) AS temp;

これは以下よりもはるかに高速です。

COUNT(DISTINCT column_name)
251
Ankur
-- My default settings (this is basically a single-session machine, so work_mem is pretty high)
SET effective_cache_size='2048MB';
SET work_mem='16MB';

\echo original
EXPLAIN ANALYZE
SELECT
        COUNT (distinct val) as aantal
FROM one
        ;

\echo group by+count(*)
EXPLAIN ANALYZE
SELECT
        distinct val
       -- , COUNT(*)
FROM one
GROUP BY val;

\echo with CTE
EXPLAIN ANALYZE
WITH agg AS (
    SELECT distinct val
    FROM one
    GROUP BY val
    )
SELECT COUNT (*) as aantal
FROM agg
        ;

結果:

original                                                      QUERY PLAN                                                      
----------------------------------------------------------------------------------------------------------------------
 Aggregate  (cost=36448.06..36448.07 rows=1 width=4) (actual time=1766.472..1766.472 rows=1 loops=1)
   ->  Seq Scan on one  (cost=0.00..32698.45 rows=1499845 width=4) (actual time=31.371..185.914 rows=1499845 loops=1)
 Total runtime: 1766.642 ms
(3 rows)

group by+count(*)
                                                         QUERY PLAN                                                         
----------------------------------------------------------------------------------------------------------------------------
 HashAggregate  (cost=36464.31..36477.31 rows=1300 width=4) (actual time=412.470..412.598 rows=1300 loops=1)
   ->  HashAggregate  (cost=36448.06..36461.06 rows=1300 width=4) (actual time=412.066..412.203 rows=1300 loops=1)
         ->  Seq Scan on one  (cost=0.00..32698.45 rows=1499845 width=4) (actual time=26.134..166.846 rows=1499845 loops=1)
 Total runtime: 412.686 ms
(4 rows)

with CTE
                                                             QUERY PLAN                                                             
------------------------------------------------------------------------------------------------------------------------------------
 Aggregate  (cost=36506.56..36506.57 rows=1 width=0) (actual time=408.239..408.239 rows=1 loops=1)
   CTE agg
     ->  HashAggregate  (cost=36464.31..36477.31 rows=1300 width=4) (actual time=407.704..407.847 rows=1300 loops=1)
           ->  HashAggregate  (cost=36448.06..36461.06 rows=1300 width=4) (actual time=407.320..407.467 rows=1300 loops=1)
                 ->  Seq Scan on one  (cost=0.00..32698.45 rows=1499845 width=4) (actual time=24.321..165.256 rows=1499845 loops=1)
       ->  CTE Scan on agg  (cost=0.00..26.00 rows=1300 width=0) (actual time=407.707..408.154 rows=1300 loops=1)
     Total runtime: 408.300 ms
    (7 rows)

CTEと同じ計画は、おそらく他の方法(ウィンドウ関数)でも作成できます。

11
wildplasser

count(distinct(x))count(x)よりも大幅に遅い場合、トリガーを使用して、table_name_x_counts (x integer not null, x_count int not null)などの別のテーブルでx値のカウントを維持することにより、このクエリを高速化できます。ただし、書き込みパフォーマンスが低下し、単一のトランザクションで複数のx値を更新する場合は、デッドロックを回避するために明示的な順序でこれを行う必要があります。

2
Tometzky

ある時点でtotal_countとlimit/offsetが必要だったので、私も同じ答えを探していました。

行うのが少し難しいので、制限/オフセットとともに個別の値で合計カウントを取得するため。通常、制限/オフセットで合計数を取得するのは困難です。最後に私はする方法を得ました-

SELECT DISTINCT COUNT(*) OVER() as total_count, * FROM table_name limit 2 offset 0;

クエリのパフォーマンスも高いです。

0