Fix bug leading to restoring unlogged relations from empty files.
authorAndres Freund <andres@anarazel.de>
Thu, 10 Dec 2015 15:25:12 +0000 (16:25 +0100)
committerAndres Freund <andres@anarazel.de>
Thu, 10 Dec 2015 15:29:27 +0000 (16:29 +0100)
At the end of crash recovery, unlogged relations are reset to the empty
state, using their init fork as the template. The init fork is copied to
the main fork without going through shared buffers. Unfortunately WAL
replay so far has not necessarily flushed writes from shared buffers to
disk at that point. In normal crash recovery, and before the
introduction of 'fast promotions' in fd4ced523 / 9.3, the
END_OF_RECOVERY checkpoint flushes the buffers out in time. But with
fast promotions that's not the case anymore.

To fix, force WAL writes targeting the init fork to be flushed
immediately (using the new FlushOneBuffer() function). In 9.5+ that
flush can centrally be triggered from the code dealing with restoring
full page writes (XLogReadBufferForRedoExtended), in earlier releases
that responsibility is in the hands of XLOG_HEAP_NEWPAGE's replay
function.

Backpatch to 9.1, even if this currently is only known to trigger in
9.3+. Flushing earlier is more robust, and it is advantageous to keep
the branches similar.

Typical symptoms of this bug are errors like
'ERROR:  index "..." contains unexpected zero page at block 0'
shortly after promoting a node.

Reported-By: Thom Brown
Author: Andres Freund and Michael Paquier
Discussion: 20150326175024.GJ451@alap3.anarazel.de
Backpatch: 9.1-

src/backend/access/heap/heapam.c
src/backend/storage/buffer/bufmgr.c
src/include/storage/bufmgr.h

index 1273d1201ffa49b511dfe14d6d4a783681da976e..4f52f05c2902e9498fecbf9c837aa0dafd3b28c1 100644 (file)
@@ -4395,6 +4395,16 @@ heap_xlog_newpage(XLogRecPtr lsn, XLogRecord *record)
    }
 
    MarkBufferDirty(buffer);
+
+   /*
+    * At the end of crash recovery the init forks of unlogged relations are
+    * copied, without going through shared buffers. So we need to force the
+    * on-disk state of init forks to always be in sync with the state in
+    * shared buffers.
+    */
+   if (xlrec->forknum == INIT_FORKNUM)
+       FlushOneBuffer(buffer);
+
    UnlockReleaseBuffer(buffer);
 }
 
index 6ef8c247547c7a5abe03d4255b592912b7f8c6d1..c06b51c9b41b3c47d9efdb0e9c4149ec1bef945e 100644 (file)
@@ -2237,6 +2237,27 @@ FlushDatabaseBuffers(Oid dbid)
    }
 }
 
+/*
+ * Flush a previously, shared or exclusively, locked and pinned buffer to the
+ * OS.
+ */
+void
+FlushOneBuffer(Buffer buffer)
+{
+   volatile BufferDesc *bufHdr;
+
+   /* currently not needed, but no fundamental reason not to support */
+   Assert(!BufferIsLocal(buffer));
+
+   Assert(BufferIsPinned(buffer));
+
+   bufHdr = &BufferDescriptors[buffer - 1];
+
+   LWLockHeldByMe(bufHdr->content_lock);
+
+   FlushBuffer(bufHdr, NULL);
+}
+
 /*
  * ReleaseBuffer -- release the pin on a buffer
  */
index eb85d6f208d1e40035ff641babff5670fd43dd91..362daf471e8e3684043467a662008344a40704b8 100644 (file)
@@ -186,6 +186,7 @@ extern void CheckPointBuffers(int flags);
 extern BlockNumber BufferGetBlockNumber(Buffer buffer);
 extern BlockNumber RelationGetNumberOfBlocksInFork(Relation relation,
                                ForkNumber forkNum);
+extern void FlushOneBuffer(Buffer buffer);
 extern void FlushRelationBuffers(Relation rel);
 extern void FlushDatabaseBuffers(Oid dbid);
 extern void DropRelFileNodeBuffers(RelFileNodeBackend rnode,