Comment improvements for abbreviated keys.
authorRobert Haas <rhaas@postgresql.org>
Tue, 22 Dec 2015 18:57:18 +0000 (13:57 -0500)
committerRobert Haas <rhaas@postgresql.org>
Tue, 22 Dec 2015 18:57:18 +0000 (13:57 -0500)
Peter Geoghegan and Robert Haas

src/backend/utils/sort/tuplesort.c
src/include/utils/sortsupport.h

index 6572af875a5ee42d63287bb7773476913b2e05b3..cf1cdcbeab58ee2c14783c5c7158cdb988802de3 100644 (file)
@@ -930,7 +930,14 @@ tuplesort_begin_datum(Oid datumType, Oid sortOperator, Oid sortCollation,
        state->sortKeys->ssup_collation = sortCollation;
        state->sortKeys->ssup_nulls_first = nullsFirstFlag;
 
-       /* abbreviation is possible here only for by-reference types */
+       /*
+        * Abbreviation is possible here only for by-reference types.  In theory,
+        * a pass-by-value datatype could have an abbreviated form that is cheaper
+        * to compare.  In a tuple sort, we could support that, because we can
+        * always extract the original datum from the tuple is needed.  Here, we
+        * can't, because a datum sort only stores a single copy of the datum;
+        * the "tuple" field of each sortTuple is NULL.
+        */
        state->sortKeys->abbreviate = !typbyval;
 
        PrepareSortSupportFromOrderingOp(sortOperator, state->sortKeys);
@@ -1271,7 +1278,7 @@ tuplesort_putindextuplevalues(Tuplesortstate *state, Relation rel,
                 * Store ordinary Datum representation, or NULL value.  If there is a
                 * converter it won't expect NULL values, and cost model is not
                 * required to account for NULL, so in that case we avoid calling
-                * converter and just set datum1 to "void" representation (to be
+                * converter and just set datum1 to zeroed representation (to be
                 * consistent).
                 */
                stup.datum1 = original;
@@ -3155,7 +3162,7 @@ copytup_heap(Tuplesortstate *state, SortTuple *stup, void *tup)
                 * Store ordinary Datum representation, or NULL value.  If there is a
                 * converter it won't expect NULL values, and cost model is not
                 * required to account for NULL, so in that case we avoid calling
-                * converter and just set datum1 to "void" representation (to be
+                * converter and just set datum1 to zeroed representation (to be
                 * consistent).
                 */
                stup->datum1 = original;
@@ -3397,7 +3404,7 @@ copytup_cluster(Tuplesortstate *state, SortTuple *stup, void *tup)
                 * Store ordinary Datum representation, or NULL value.  If there is a
                 * converter it won't expect NULL values, and cost model is not
                 * required to account for NULL, so in that case we avoid calling
-                * converter and just set datum1 to "void" representation (to be
+                * converter and just set datum1 to zeroed representation (to be
                 * consistent).
                 */
                stup->datum1 = original;
@@ -3701,7 +3708,7 @@ copytup_index(Tuplesortstate *state, SortTuple *stup, void *tup)
                 * Store ordinary Datum representation, or NULL value.  If there is a
                 * converter it won't expect NULL values, and cost model is not
                 * required to account for NULL, so in that case we avoid calling
-                * converter and just set datum1 to "void" representation (to be
+                * converter and just set datum1 to zeroed representation (to be
                 * consistent).
                 */
                stup->datum1 = original;
index 425863055631208bc4b48c8dc0ec95e025876d3b..e890503d31fa259597d0d132567951f316f40537 100644 (file)
@@ -116,24 +116,25 @@ typedef struct SortSupportData
         *
         * This allows opclass authors to supply a conversion routine, used to
         * create an alternative representation of the underlying type (an
-        * "abbreviated key").  Typically, this representation is an ad-hoc,
-        * pass-by-value Datum format that only the opclass has knowledge of.  An
-        * alternative comparator, used only with this alternative representation
-        * must also be provided (which is assigned to "comparator").  This
-        * representation is a simple approximation of the original Datum.  It
-        * must be possible to compare datums of this representation with each
-        * other using the supplied alternative comparator, and have any non-zero
-        * return value be a reliable proxy for what a proper comparison would
-        * indicate. Returning zero from the alternative comparator does not
-        * indicate equality, as with a conventional support routine 1, though --
-        * it indicates that it wasn't possible to determine how the two
-        * abbreviated values compared.  A proper comparison, using
-        * "abbrev_full_comparator"/ ApplySortAbbrevFullComparator() is therefore
-        * required.  In many cases this results in most or all comparisons only
-        * using the cheap alternative comparison func, which is typically
-        * implemented as code that compiles to just a few CPU instructions.  CPU
-        * cache miss penalties are expensive; to get good overall performance,
-        * sort infrastructure must heavily weigh cache performance.
+        * "abbreviated key").  This representation must be pass-by-value and
+        * typically will use some ad-hoc format that only the opclass has
+        * knowledge of.  An alternative comparator, used only with this
+        * alternative representation must also be provided (which is assigned to
+        * "comparator").  This representation is a simple approximation of the
+        * original Datum.  It must be possible to compare datums of this
+        * representation with each other using the supplied alternative
+        * comparator, and have any non-zero return value be a reliable proxy for
+        * what a proper comparison would indicate. Returning zero from the
+        * alternative comparator does not indicate equality, as with a
+        * conventional support routine 1, though -- it indicates that it wasn't
+        * possible to determine how the two abbreviated values compared.  A
+        * proper comparison, using "abbrev_full_comparator"/
+        * ApplySortAbbrevFullComparator() is therefore required.  In many cases
+        * this results in most or all comparisons only using the cheap
+        * alternative comparison func, which is typically implemented as code
+        * that compiles to just a few CPU instructions.  CPU cache miss penalties
+        * are expensive; to get good overall performance, sort infrastructure
+        * must heavily weigh cache performance.
         *
         * Opclass authors must consider the final cardinality of abbreviated keys
         * when devising an encoding scheme.  It's possible for a strategy to work