next数组是KMP算法的核心预处理结构，其本质是**记录模式串中每个位置的最长公共前后缀长度*

最新推荐文章于 2025-05-20 19:46:55 发布

Bol5261

最新推荐文章于 2025-05-20 19:46:55 发布

阅读量700

点赞数 25

分类专栏： Recursion(Recursion Algorithm) Array(Python、Java、C++、JS) Character String(STRING) 文章标签：算法 java 前端

本文链接：https://blog.csdn.net/blog_programb/article/details/148058138

版权

Character String(STRING) 同时被 3 个专栏收录

552 篇文章

订阅专栏

Array(Python、Java、C++、JS)

285 篇文章

订阅专栏

Recursion(Recursion Algorithm)

178 篇文章

订阅专栏

以下是对KMP算法及next数组相关问题的详细整理与补充，结合逻辑拆解和可视化表达，帮助进一步理解核心原理：

一、next数组的核心作用：定位「最长公共前后缀」

next数组是KMP算法的核心预处理结构，其本质是记录模式串中每个位置的最长公共前后缀长度。具体作用包括：

失配时的快速回溯
当主串与模式串在位置j失配时，无需将模式串完全回退到起点，而是根据next[j]的值，将模式串向右滑动j - next[j]位（即让模式串的next[j]位置与主串失配位置对齐），避免重复比较已匹配的前缀。

示例：
模式串为ABAB，其next数组为[-1, 0, 1, 2]。若在位置j=3（字符B）失配，根据next[3]=2，模式串直接滑动到j=2（字符A）继续比较，跳过j=0和j=1的无效位置。
高效预处理模式串结构
通过预先计算模式串的前后缀匹配关系，将匹配过程的时间复杂度从暴力算法的 $O (nm)$ 优化至 $O (n + m)$ （n为主串长度，m为模式串长度）。

二、next数组的计算逻辑：双指针迭代法

核心思想

利用递推关系计算每个位置的最长公共前后缀：

若已知前j个字符的最长公共前后缀长度为next[j-1]，则只需比较第j个字符与前缀末尾字符（即第next[j-1]个字符的下一个位置），判断是否能延长公共前后缀。

详细步骤（以0-based索引为例）

初始化
- next[0] = -1（空字符串无前缀后缀）。
- 指针i = -1（表示当前前缀末尾位置），j = 0（表示当前后缀末尾位置）。
迭代计算next[j+1]
从j=0开始遍历模式串：
- 情况1：若s[j] == s[i]
  则最长公共前后缀长度可延长1，即next[j+1] = i + 1，同时i++，j++。
- 情况2：若s[j] != s[i]且i != -1
  回溯前缀，令i = next[i]，继续比较s[j]与s[i]。
- 情况3：若s[j] != s[i]且i == -1
  说明无前缀匹配，next[j+1] = 0，j++。

示例：计算模式串`ABABC`的next数组

位置`j`	字符	`next[j]`	计算过程（`i`初始为`next[j-1]`）
0	A	-1	初始化
1	B	0	`i=-1` → `next[1]=0`
2	A	0	`i=next[1]=0`，`s[1]≠s[0]` → `i=next[0]=-1` → `next[2]=0`
3	B	1	`i=next[2]=0`，`s[3]=s[0]` → `next[3]=0+1=1`，`i=1`
4	C	2	`i=next[3]=1`，`s[4]=s[1]` → `next[4]=1+1=2`，`i=2`

最终next数组：[-1, 0, 0, 1, 2]。

三、KMP算法伪代码：双指针匹配过程

Function KMP(t: 主串, s: 模式串, next: 数组):
    i = 0, j = 0  // i指向主串，j指向模式串
    n = len(t), m = len(s)
    while i < n and j < m:
        if j == -1 or t[i] == s[j]:
            i += 1
            j += 1
        else:
            j = next[j]  // 模式串回溯
    if j == m:
        return i - m  // 返回匹配起始位置
    else:
        return -1      // 匹配失败

关键逻辑解析

匹配成功：当j遍历完模式串（j == m），说明从主串i-m位置开始匹配成功。
失配处理：若t[i] != s[j]，利用next[j]将模式串右移，避免i回退（主串无需回溯，这是KMP高效的关键）。

四、常见变种：next数组的优化（nextval数组）

在标准next数组中，可能存在无效回溯（如模式串字符重复时）。优化后的nextval数组进一步压缩回溯次数：

当s[j] == s[next[j]]时，直接将nextval[j]设为nextval[next[j]]，避免重复比较相同字符。

示例：
模式串AAAAB的标准next数组为[-1, 0, 1, 2, 3]，优化后nextval数组为[-1, -1, -1, -1, 3]，显著减少失配时的回溯次数。

五、总结：KMP算法的核心优势

时间效率：预处理next数组耗时 $O (m)$ ，匹配过程耗时 $O (n)$ ，总复杂度 $O (n + m)$ 。
空间效率：需额外存储next数组，空间复杂度 $O (m)$ 。
适用场景：大规模文本搜索（如编辑器查找功能）、生物序列比对等需要高效字符串匹配的场景。

通过理解next数组对模式串结构的抽象，KMP算法实现了“用空间换时间”的优化，是字符串匹配问题的经典解决方案。
下面是KMP算法的Python实现，包含next数组计算和字符串匹配两部分：

def compute_next(pattern):
    """计算模式串的next数组"""
    m = len(pattern)
    next_arr = [-1] * m
    i, j = -1, 0
    
    while j < m - 1:
        if i == -1 or pattern[j] == pattern[i]:
            i += 1
            j += 1
            next_arr[j] = i
        else:
            i = next_arr[i]
    
    return next_arr

def kmp_search(text, pattern):
    """使用KMP算法在文本中查找模式串的所有出现位置"""
    n, m = len(text), len(pattern)
    if m == 0:
        return [0]  # 空模式串在位置0匹配
    
    next_arr = compute_next(pattern)
    indices = []
    i, j = 0, 0
    
    while i < n:
        if j == -1 or text[i] == pattern[j]:
            i += 1
            j += 1
        else:
            j = next_arr[j]
        
        if j == m:
            indices.append(i - j)
            j = next_arr[j - 1]  # 继续寻找下一个匹配
    
    return indices

# 示例用法
if __name__ == "__main__":
    text = "ABABDABACDABABCABAB"
    pattern = "ABABCABAB"
    print(f"文本: {text}")
    print(f"模式: {pattern}")
    print(f"匹配位置: {kmp_search(text, pattern)}")  # 输出: [10]

代码说明：

compute_next函数：计算模式串的next数组，用于记录最长公共前后缀信息
kmp_search函数：在文本中查找模式串的所有出现位置，返回索引列表
示例演示：在示例文本中查找模式串"ABABCABAB"的匹配位置

核心逻辑：

当字符匹配时，双指针同时前进
当字符不匹配时，利用next数组回溯模式串指针
匹配成功时，记录位置并继续搜索下一个匹配
图中的问题是关于KMP算法的，KMP算法是一种高效的字符串搜索算法，它通过预处理模式串来避免重复比较。以下是对图中问题的解答：

KMP算法的next数组的作用是什么？
- KMP算法的next数组用于存储模式串（s）的前缀和后缀匹配信息。具体来说，next[j]表示模式串s的前j+1个字符中，最长的相同前后缀的长度。这个数组在模式匹配过程中用于在失配时决定模式串的滑动位置，从而避免从头开始匹配，提高匹配效率。
KMP算法的next数组是如何计算的？
- 计算next数组的过程如下：
  1. 初始化next[0] = -1，因为长度为1的字符串没有前后缀。
  2. 从j = 1开始，逐个计算next[j]的值。
  3. 初始化i = next[j-1]，表示当前已知的最长相同前后缀的长度。
  4. 比较s[j]和s[i+1]：
    - 如果s[j] = s[i+1]，则说明s[0…j]和s[1…j+1]也有相同的前后缀，因此next[j] = i + 1。
    - 如果s[j] ≠ s[i+1]，则需要更新i的值，i = next[i]，继续比较s[j]和s[i+1]。
    - 如果i = -1，说明没有找到相同的前后缀，因此next[j] = 0。
  5. 重复步骤4，直到找到最长的相同前后缀或i = -1。
KMP算法的伪代码描述如下：
- 初始化两个指针i和j，分别指向主串t和模式串s的起始位置。
- 当i < lt（主串长度）且j < ls（模式串长度）时，进行以下操作：
  1 . 如果j = -1或t[i] = s[j]，则i和j同时加1，继续比较下一个字符。
  2. 如果t[i] ≠ s[j]，则根据next数组的值更新j的位置，即j = next[j]。
- 如果j = ls，说明模式串s在主串t中找到了匹配，返回匹配的起始位置i-ls+1；否则，如果所有字符都已比较完毕，返回-1表示未找到匹配。

希望这些解答能帮助你理解KMP算法及其next数组的作用和计算方法。
KMP算法是一种高效的字符串搜索算法，它通过预处理模式串来避免重复比较，从而提高搜索效率。KMP算法的作用是在一个已知字符串中查找子串的位置，也叫做串的模式匹配。例如，给定主串s = ‘abba’和字串t = ‘ab’，KMP算法可以帮助我们找到字串t在主串s中的位置。

KMP算法通过计算next数组来优化搜索过程，next数组存储了模式串的最长公共前后缀的长度，这使得在发生不匹配时，模式串可以回溯到合适的位置继续匹配，而不是简单地回退到下一个位置。这种方法减少了不必要的比较，提高了搜索效率。

然而，尽管KMP算法在许多情况下都非常有效，它并不能处理所有类型的字符串搜索。例如，对于某些特殊情况，如模式串或主串包含特殊字符或格式，可能需要其他算法或对KMP算法进行修改以适应这些情况。此外，KMP算法在处理非常长的字符串或需要频繁搜索的场景时，可能需要更多的内存和时间来计算next数组。
在这里插入图片描述