Fix buffer overrun in unicode string normalization with empty input

author Michael Paquier <michael@paquier.xyz>

Thu, 11 Nov 2021 06:00:59 +0000 (15:00 +0900)

committer Michael Paquier <michael@paquier.xyz>

Thu, 11 Nov 2021 06:00:59 +0000 (15:00 +0900)
author Michael Paquier <michael@paquier.xyz>
Thu, 11 Nov 2021 06:00:59 +0000 (15:00 +0900)
committer Michael Paquier <michael@paquier.xyz>
Thu, 11 Nov 2021 06:00:59 +0000 (15:00 +0900)
diff --git a/src/common/unicode_norm.c b/src/common/unicode_norm.c

index 36ff2aab218ea25247689560f91a4a50d7b8967d..06bf921e4586dc24169245f2710870de2c407e3a 100644 (file)
--- a/src/common/unicode_norm.c
+++ b/src/common/unicode_norm.c
@@ -439,6 +439,10 @@ unicode_normalize(UnicodeNormalizationForm form, const pg_wchar *input)
     decomp_chars[decomp_size] = '\0';
     Assert(decomp_size == current_size);
  
+   /* Leave if there is nothing to decompose */
+   if (decomp_size == 0)
+       return decomp_chars;
+
     /*
      * Now apply canonical ordering.
      */
diff --git a/src/test/regress/expected/unicode.out b/src/test/regress/expected/unicode.out

index 2a1e903696681e625368117b070c2e7bb58898c8..f2713a232688b5c3bc009a39436578b4e13d2d65 100644 (file)
--- a/src/test/regress/expected/unicode.out
+++ b/src/test/regress/expected/unicode.out
@@ -8,6 +8,12 @@ SELECT U&'\0061\0308bc' <> U&'\00E4bc' COLLATE "C" AS sanity_check;
   t
  (1 row)
  
+SELECT normalize('');
+ normalize 
+-----------
+ 
+(1 row)
+
  SELECT normalize(U&'\0061\0308\24D1c') = U&'\00E4\24D1c' COLLATE "C" AS test_default;
   test_default 
  --------------
@@ -67,7 +73,8 @@ FROM
    (VALUES (1, U&'\00E4bc'),
            (2, U&'\0061\0308bc'),
            (3, U&'\00E4\24D1c'),
-          (4, U&'\0061\0308\24D1c')) vals (num, val)
+          (4, U&'\0061\0308\24D1c'),
+          (5, '')) vals (num, val)
  ORDER BY num;
   num | val | nfc | nfd | nfkc | nfkd 
  -----+-----+-----+-----+------+------
@@ -75,7 +82,8 @@ ORDER BY num;
     2 | äbc | f   | t   | f    | t
     3 | äⓑc | t   | f   | f    | f
     4 | äⓑc | f   | t   | f    | f
-(4 rows)
+   5 |     | t   | t   | t    | t
+(5 rows)
  
  SELECT is_normalized('abc', 'def');  -- run-time error
  ERROR:  invalid normalization form: def
diff --git a/src/test/regress/sql/unicode.sql b/src/test/regress/sql/unicode.sql

index ccfc6fa77ab4b2b1f8ef6ada5e51b2723a7fad42..63cd523f85f7996c2fe978549dc293c254da7084 100644 (file)
--- a/src/test/regress/sql/unicode.sql
+++ b/src/test/regress/sql/unicode.sql
@@ -5,6 +5,7 @@ SELECT getdatabaseencoding() <> 'UTF8' AS skip_test \gset
  
  SELECT U&'\0061\0308bc' <> U&'\00E4bc' COLLATE "C" AS sanity_check;
  
+SELECT normalize('');
  SELECT normalize(U&'\0061\0308\24D1c') = U&'\00E4\24D1c' COLLATE "C" AS test_default;
  SELECT normalize(U&'\0061\0308\24D1c', NFC) = U&'\00E4\24D1c' COLLATE "C" AS test_nfc;
  SELECT normalize(U&'\00E4bc', NFC) = U&'\00E4bc' COLLATE "C" AS test_nfc_idem;
@@ -26,7 +27,8 @@ FROM
    (VALUES (1, U&'\00E4bc'),
            (2, U&'\0061\0308bc'),
            (3, U&'\00E4\24D1c'),
-          (4, U&'\0061\0308\24D1c')) vals (num, val)
+          (4, U&'\0061\0308\24D1c'),
+          (5, '')) vals (num, val)
  ORDER BY num;
  
  SELECT is_normalized('abc', 'def');  -- run-time error
author	Michael Paquier <michael@paquier.xyz>
	Thu, 11 Nov 2021 06:00:59 +0000 (15:00 +0900)
committer	Michael Paquier <michael@paquier.xyz>
	Thu, 11 Nov 2021 06:00:59 +0000 (15:00 +0900)
src/common/unicode_norm.c		patch \| blob \| blame \| history
src/test/regress/expected/unicode.out		patch \| blob \| blame \| history
src/test/regress/sql/unicode.sql		patch \| blob \| blame \| history