KMP算法

  • 对于KMP算法,都会涉及到两个串

一个是待匹配串 char T[1000]//待匹配串            待匹配串的长度定为n

一个是模板串  char P[100]//模板串     模板串的长度定为m

  

 

  • 要知道KMP的F[i]数组求得的数值就是串P中的[1,i-1]的后缀与串P中的[0,i-2]前缀的最大匹配长度。

 

  •  对于KMP算法一般会利用到两个函数
  1. void find(char *T, char *P, int *f) //找到所有匹配点
    
  2. void getFail(char *P, int *f)
    

 

  • KMP算法经常用到的两个函数的模板
const int MAXN=1000000+100;
const int MAXM=10000+100;
int T[MAXN],P[MAXM],f[MAXM],f2[MAXM];
int n,m;
void getFail(char *P,int *f)//必须用f和f2两个数组,要不然不好计算优化指针,比如串aaaab的优化指针是000030
{
    f[0]=f[1]=0;//保存优化之后的失配指针
    f2[0]=f2[1]=0;//f2保存未优化的适配指针
    int m =strlen(P);
    for(int i=1;i<m;i++)
    {
        int j=f2[i];
        while(j && P[i]!=P[j]) j=f2[j];
        f2[i+1] = f[i+1] = (P[i]==P[j])?j+1:0;//既然i+1的失配位置指向j+1,但是P[i+1]和P[j+1]的内容是相同的
        //所以就算指针从i+1跳到j+1去,还是不能匹配,所以f[i+1]直接=f[j+1]
        if(f[i+1]==j+1 && P[i+1]==P[j+1]) f[i+1]=f[j+1];
        //cout<<f[i]<<f2[i]<<endl;
    }
}
const int MAXN=1000000+100;
const int MAXM=10000+100;
int T[MAXN],P[MAXM],f[MAXM],f2[MAXM];
int n,m;
//int cnt;
//int ex[MAXN];
void find(char *T,char *P,int *f)
{
    int n=strlen(T);
    int m=strlen(P);
    int j=0;
    for(int i=0;i<n;i++)
    {
        if(j && T[i]!=P[j]) j=f[j];
        if(T[i]==P[j]) j++;
        //ex[i]=j;     在用KMP计算两字符串前缀后缀的时候常用到(注:从此处开始下面的代码一般都以具体题目而定)
        if(j==m)//j为两串相同的长度,i为在T串中出现的位置
        {
             //cnt++;
             //printf("%d\n", i - m + 1);//输出每次P串在T串中每一次出现的位置,注意下标是从0开始的
             //return i-m+1; (前面要变成 int find函数)
        }
    }
}
  • 还有一种求多个字符串的最长公共连续子串,如果存在多个长度相同的就输出字典序最小的那个,其模板为
char s[4100][250];
char P[250];
char ans[250];//最终的结果字符串
int m,next[250];
int n;//表示有多少个主串
void getFail()
{
    m=strlen(P);
    next[0]=next[1]=0;
    for(int i=1;i<m;i++)
    {
        int j =next[i];
        while(j && P[i]!=P[j]) j=next[j];
        next[i+1] = (P[i]==P[j])?j+1:0;
    }
}
bool find(char *T)
{
    int j=0;
    getFail();
    int n=strlen(T);
    for(int i=0;i<n;i++)
    {
        while(j && T[i]!=P[j]) j=next[j];
        if(T[i]==P[j]) j++;
        if(j==m) return true;
    }
    return false;
}
bool solve_1(int len)//判断第0个base串的长为len的字串中是否有可行串
{
    int s0_len=strlen(s[0]);
    for(int i=0;i+len-1<s0_len;i++)
    {
        strncpy(P,s[0]+i,len);
        P[len]=0;//P串末尾加'\0'
        bool ok=true;
        for(int j=1;j<n;j++)
        if(!find(s[j]))
        {
            ok=false;
            break;
        }
        if(ok) return true;
    }
    return false;
}
void solve_3(int len)//找出长度为len的可行字串中字典序最小的,放在ans中
{
    bool first=true;
    int s0_len=strlen(s[0]);
    for(int i=0;i+len-1<s0_len;i++)
    {
        strncpy(P,s[0]+i,len);
        P[len]=0;//P串末尾加'\0'
        bool ok=true;
        for(int j=1;j<n;j++)if(!find(s[j]))
        {
            ok=false;
            break;
        }
        if(ok)
        {
            if(first)
            {
                strncpy(ans,P,len+1);
                first=false;
            }
            else if(strcmp(ans,P)>0)//字典序小才更新
                strncpy(ans,P,len+1);
        }
    }
}
bool solve()
{
    int L=1,R=strlen(s[0]);
    if(!solve_1(1)) return false;
    while(R>L)
    {
        int m=L+(R-L+1)/2;
        if(solve_1(m))
            L=m;
        else
            R=m-1;
    }
    //找到了可行字串的最长长度为L,然后需要找出字典序最小的
    solve_3(L);//找到长L的字典序最小的字串存在ans中
    return true;
}

 

 

KMP模板题

POJ 3461Oulipo(KMP:统计一个串出现的次数):KMP模板题。解题报告!

HDU 1711Number Sequence(KMP:找模板第一次出现的位置):KMP模板题。解题报告!

HDU 3336Count the string(KMP:串前缀匹配自身+DP):简单的前缀匹配+DP问题。解题报告!

POJ3080 Blue Jeans(KMP:最长连续公共子序列):求多个字符串的最长公共连续子串,如果存在多个长度相同的就输出字典序最小的那个。解题报告!

POJ3450 Corporate Identity(KMP:最长连续公共子序列):类似于上一题。解题报告!

HDU2087剪花布条(KMP:贪心):需要贪心的从左到右有考虑。解题报告!

HDU2203亲和串(KMP:循环移位):给你串T和串P问你串P是否能和T循环移K位后的串匹配。解题报告!

HDU1867 A + B for you again(KMP:后缀与前缀):字符串合并。解题报告!

 

KMP前缀与后缀

HDU 2594Simpsons’ HiddenTalents(KMP:后缀与前缀):KMP的思想。解题报告!

POJ 2752Seek the Name, Seekthe Fame(KMP:后缀与前缀):找出所有前缀与后缀匹配的长度。解题报告!

 

求字符串最短循环节

UVA 1328Period(KMP:最短循环节):如何求字符串的循环节?解题报告!

POJ 2406Power Strings(KMP:找串循环节):求出最小循环节个数。解题报告!

HDU 3746Cyclic Nacklace(KMP:补齐循环节):要你补充完整一个串,使得该串有循环节构成。解题报告!

POJ 2185Milking Grid(KMP:循环节加强版):转换思维。解题报告!

### KMP算法的实现 KMP算法是一种高效的字符串匹配算法,它通过构建部分匹配表(也称为`next`数组)来减少不必要的回溯操作[^2]。以下是基于Python语言的KMP算法实现: ```python def compute_next_array(pattern): next_arr = [-1] * len(pattern) i, j = 0, -1 while i < len(pattern) - 1: if j == -1 or pattern[i] == pattern[j]: i += 1 j += 1 next_arr[i] = j else: j = next_arr[j] return next_arr def kmp_search(text, pattern): m, n = len(text), len(pattern) next_arr = compute_next_array(pattern) i, j = 0, 0 while i < m and j < n: if j == -1 or text[i] == pattern[j]: i += 1 j += 1 else: j = next_arr[j] if j == n: return i - j # 返回匹配起始位置 return -1 # 表示未找到匹配项 ``` 上述代码分为两部分: - `compute_next_array()` 函数用于计算模式串的部分匹配表(即`next`数组)。这部分的核心在于利用已知的最大公共前后缀长度来优化后续匹配过程[^5]。 - `kmp_search()` 函数则负责执行具体的字符串匹配逻辑。 --- ### KMP算法的应用场景 #### 文本编辑器中的查找功能 在文本编辑器中,当用户输入一段文字并希望快速定位某个关键词时,可以采用KMP算法完成这一任务。相比传统的暴力匹配方法,KMP能够在更短的时间内返回结果,尤其适用于大规模文档环境下的搜索需求[^1]。 #### 数据清洗与预处理 在大数据领域,经常需要对海量日志文件或其他形式的数据集进行过滤或提取特定字段的操作。此时如果目标子串固定不变,则可预先生成对应的`next`数组,在多次查询过程中显著提升效率[^3]。 #### 生物信息学研究 DNA序列由四种碱基组成(A,T,C,G),因此对于某些基因片段的研究工作而言,频繁涉及相似结构单元之间的对比分析。借助于KMP技术,研究人员能够更加便捷地识别出感兴趣的区域及其分布规律[^4]。 --- ### 性能优势总结 总体来看,由于引入了额外的信息存储机制——即所谓的“失败指针”,使得整个流程无需反复跳转至初始状态重新尝试;从而大幅降低了最坏情况下的时间开销,并保持相对稳定的内存占用水平[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值