Fix recovery_prefetch with low maintenance_io_concurrency.
authorThomas Munro <tmunro@postgresql.org>
Thu, 8 Sep 2022 08:25:20 +0000 (20:25 +1200)
committerThomas Munro <tmunro@postgresql.org>
Thu, 8 Sep 2022 08:36:44 +0000 (20:36 +1200)
commitdd38ff28addc13594c0f9e2a62ef2ffa59230598
tree5d6fcf11efd6a8b31603cb075909e414f7f2f89a
parent144cefac92644f338c35b77f6d9b4a9456c80563
Fix recovery_prefetch with low maintenance_io_concurrency.

We should process completed IOs *before* trying to start more, so that
it is always possible to decode one more record when the decoded record
queue is empty, even if maintenance_io_concurrency is set so low that a
single earlier WAL record might have saturated the IO queue.

That bug was hidden because the effect of maintenance_io_concurrency was
arbitrarily clamped to be at least 2.  Fix the ordering, and also remove
that clamp.  We need a special case for 0, which is now treated the same
as recovery_prefetch=off, but otherwise the number is used directly.
This allows for testing with 1, which would have made the problem
obvious in simple test scenarios.

Also add an explicit error message for missing contrecords.  It was a
bit strange that we didn't report an error already, and became a latent
bug with prefetching, since the internal state that tracks aborted
contrecords would not survive retrying, as revealed by
026_overwrite_contrecord.pl with this adjustment.  Reporting an error
prevents that.

Back-patch to 15.

Reported-by: Justin Pryzby <pryzby@telsasoft.com>
Reviewed-by: Kyotaro Horiguchi <horikyota.ntt@gmail.com>
Discussion: https://postgr.es/m/20220831140128.GS31833%40telsasoft.com
src/backend/access/transam/xlogprefetcher.c
src/backend/access/transam/xlogreader.c
src/include/access/xlogreader.h