大きなINを使用したPostgresクエリの最適化

Question

このクエリは、あなたがフォローしている人が作成した投稿のリストを取得します。フォローできる人数は無制限ですが、ほとんどの人は1000人未満をフォローしています。

このスタイルのクエリでは、明らかな最適化は"Post" IDをキャッシュすることですが、残念ながら、今はそのための時間がありません。

EXPLAIN ANALYZE SELECT "Post"."id", "Post"."actionId", "Post"."commentCount", ... FROM "Posts" AS "Post" INNER JOIN "Users" AS "user" ON "Post"."userId" = "user"."id" LEFT OUTER JOIN "ActivityLogs" AS "activityLog" ON "Post"."activityLogId" = "activityLog"."id" LEFT OUTER JOIN "WeightLogs" AS "weightLog" ON "Post"."weightLogId" = "weightLog"."id" LEFT OUTER JOIN "Workouts" AS "workout" ON "Post"."workoutId" = "workout"."id" LEFT OUTER JOIN "WorkoutLogs" AS "workoutLog" ON "Post"."workoutLogId" = "workoutLog"."id" LEFT OUTER JOIN "Workouts" AS "workoutLog.workout" ON "workoutLog"."workoutId" = "workoutLog.workout"."id" WHERE "Post"."userId" IN ( 201486, 1825186, 998608, 340844, 271909, 308218, 341986, 216893, 1917226, ... -- many more ) AND "Post"."private" IS NULL ORDER BY "Post"."createdAt" DESC LIMIT 10;

収量：

Limit (cost=3.01..4555.20 rows=10 width=2601) (actual time=7923.011..7973.138 rows=10 loops=1) -> Nested Loop Left Join (cost=3.01..9019264.02 rows=19813 width=2601) (actual time=7923.010..7973.133 rows=10 loops=1) -> Nested Loop Left Join (cost=2.58..8935617.96 rows=19813 width=2376) (actual time=7922.995..7973.063 rows=10 loops=1) -> Nested Loop Left Join (cost=2.15..8821537.89 rows=19813 width=2315) (actual time=7922.984..7961.868 rows=10 loops=1) -> Nested Loop Left Join (cost=1.71..8700662.11 rows=19813 width=2090) (actual time=7922.981..7961.846 rows=10 loops=1) -> Nested Loop Left Join (cost=1.29..8610743.68 rows=19813 width=2021) (actual time=7922.977..7961.816 rows=10 loops=1) -> Nested Loop (cost=0.86..8498351.81 rows=19813 width=1964) (actual time=7922.972..7960.723 rows=10 loops=1) -> Index Scan using posts_createdat_public_index on "Posts" "Post" (cost=0.43..8366309.39 rows=20327 width=261) (actual time=7922.869..7960.509 rows=10 loops=1) Filter: ("userId" = ANY ('{201486,1825186,998608,340844,271909,308218,341986,216893,1917226, ... many more ...}'::integer[])) Rows Removed by Filter: 218360 -> Index Scan using "Users_pkey" on "Users" "user" (cost=0.43..6.49 rows=1 width=1703) (actual time=0.005..0.006 rows=1 loops=10) Index Cond: (id = "Post"."userId") -> Index Scan using "ActivityLogs_pkey" on "ActivityLogs" "activityLog" (cost=0.43..5.66 rows=1 width=57) (actual time=0.107..0.107 rows=0 loops=10) Index Cond: ("Post"."activityLogId" = id) -> Index Scan using "WeightLogs_pkey" on "WeightLogs" "weightLog" (cost=0.42..4.53 rows=1 width=69) (actual time=0.001..0.001 rows=0 loops=10) Index Cond: ("Post"."weightLogId" = id) -> Index Scan using "Workouts_pkey" on "Workouts" workout (cost=0.43..6.09 rows=1 width=225) (actual time=0.001..0.001 rows=0 loops=10) Index Cond: ("Post"."workoutId" = id) -> Index Scan using "WorkoutLogs_pkey" on "WorkoutLogs" "workoutLog" (cost=0.43..5.75 rows=1 width=61) (actual time=1.118..1.118 rows=0 loops=10) Index Cond: ("Post"."workoutLogId" = id) -> Index Scan using "Workouts_pkey" on "Workouts" "workoutLog.workout" (cost=0.43..4.21 rows=1 width=225) (actual time=0.004..0.004 rows=0 loops=10) Index Cond: ("workoutLog"."workoutId" = id) Total runtime: 7974.524 ms

とりあえずこれをどのように最適化できますか？

次の関連するインデックスがあります。

-- Gets used CREATE INDEX "posts_createdat_public_index" ON "public"."Posts" USING btree("createdAt" DESC) WHERE "private" IS null; -- Don't get used CREATE INDEX "posts_userid_fk_index" ON "public"."Posts" USING btree("userId"); CREATE INDEX "posts_following_index" ON "public"."Posts" USING btree("userId", "createdAt" DESC) WHERE "private" IS null;

おそらく、これにはcreatedAtおよびuserIdを含む大きな部分複合インデックスが必要です。ここで、private IS NULL？

Craig Ringer · Accepted Answer

巨大なIN- listを使用する代わりに、VALUES式で結合するか、リストが十分に大きい場合は一時テーブルを使用し、インデックスを作成してから結合します。

PostgreSQLが内部的かつ自動的にこれを行うことができればいいのですが、現時点では、プランナーはその方法を知りません。

同様のトピック：

Erwin Brandstetter · Answer

Postgresには実際にはIN構成の2つの異なるバリアントがあります。 subquery expression （（setを返す） =）、 値のリスト が付いたもう1つは、単に省略形ですために

expression = value1 OR expression = value2 OR ...

2番目の形式を使用していますが、これは短いリストでは問題ありませんが、長いリストではmuch遅くなります。代わりに、値のリストをサブクエリ式として指定してください。私は最近この亜種に気づきました：

WHERE "Post"."userId" IN (VALUES (201486), (1825186), (998608), ... )

配列を渡し、ネストを解除して、それに結合するのが好きです。パフォーマンスは似ていますが、構文は短くなっています。

... FROM unnest('{201486,1825186,998608, ...}'::int[]) "userId" JOIN "Posts" "Post" USING ("userId")

提供されたセット/配列にduplicatesがない限り、同等です。それ以外の場合、JOINを使用した2番目の形式は重複行を返しますが、INを使用した最初の形式は単一のインスタンスのみを返します。これの微妙な違いによって、クエリプランも異なります。

明らかに、"Posts"."userId"のインデックスが必要です。
very長いリスト（数千）の場合は、@ Craigのようなインデックス付きの一時テーブルを提案します。これにより、両方のテーブルでビットマップインデックススキャンを組み合わせることができます。これは、データページごとに複数のタプルがディスクからフェッチされるとすぐに、通常はより高速になります。