Fix ndistinct estimates with system attributes
authorTomas Vondra <tomas.vondra@postgresql.org>
Fri, 26 Mar 2021 21:34:53 +0000 (22:34 +0100)
committerTomas Vondra <tomas.vondra@postgresql.org>
Fri, 26 Mar 2021 21:44:01 +0000 (22:44 +0100)
When estimating the number of groups using extended statistics, the code
was discarding information about system attributes. This led to strange
situation that

    SELECT 1 FROM t GROUP BY ctid;

could have produced higher estimate (equal to pg_class.reltuples) than

    SELECT 1 FROM t GROUP BY a, b, ctid;

with extended statistics on (a,b). Fixed by retaining information about
the system attribute.

Backpatch all the way to 10, where extended statistics were introduced.

Author: Tomas Vondra
Backpatch-through: 10

src/backend/utils/adt/selfuncs.c

index 17640b2328f4a117a49552178b646a09632ba18f..2240636e6c42ec936bb662c59c5df889f3753bc3 100644 (file)
@@ -4025,11 +4025,11 @@ estimate_multivariate_ndistinct(PlannerInfo *root, RelOptInfo *rel,
 
            attnum = ((Var *) varinfo->var)->varattno;
 
-           if (!AttrNumberIsForUserDefinedAttr(attnum))
+           if (AttrNumberIsForUserDefinedAttr(attnum) &&
+               bms_is_member(attnum, matched))
                continue;
 
-           if (!bms_is_member(attnum, matched))
-               newlist = lappend(newlist, varinfo);
+           newlist = lappend(newlist, varinfo);
        }
 
        *varinfos = newlist;