KMP 详解
引入
什么是 KMP?
KMP 是一种 \(O(n)\) 求解一个字符串 \(t\) (模式串)在另一个字符串 \(s\) (主串)中 所有 出现的地方和总次数。
KMP 有什么用?
可以解决很多关于子串的问题。
以下使用 \(s[l .. r]\) 表示 \(s_ls_{l + 1}\cdots s_r\)。
思路
暴力算法
首先考虑暴力算法:
枚举 \(i \in [1, n]\),比较 \(t[i .. i + len(m) - 1]\) 和 \(s\)。
时间复杂度 \(O(n^2)\)。
过程:
data:image/s3,"s3://crabby-images/0b219/0b219ce955a4f761e47c15dcbe4db3ad14fbaa98" alt="暴力算法"
那么为什么暴力这么慢呢?
问题出在两个地方:
- 每一个位置都要比较
- 字符串需要 \(O(n)\) 比较
第二个基本上没法优化了(因为字符串比较真的需要 \(O(n)\)),但第一个可以优化。
我们只需要不让每一个位置都需要比较就好了。
于是我们就得到 KMP 的核心思想。
KMP 思想
我们在暴力匹配时除了匹配成功与失败,还有 别的有用信息 吗?
答案是有的。
除了没有匹配成功以外,我们还可以得到 有多少个字符的前缀是可以匹配的。
例如:
data:image/s3,"s3://crabby-images/337d3/337d3430d6be4ee7c851972e2ef66632d43eefd0" alt="有用信息举例"
那么知道了这些信息有什么用呢?
我们可以 将一些情况排除,也就是跳过从某些位置开始匹配的步骤!
具体的:
data:image/s3,"s3://crabby-images/f6cd5/f6cd5b2bf4889c1e32addb4a2136d10256865e5b" alt="KMP 思想 1"
再看一个例子:
data:image/s3,"s3://crabby-images/48a71/48a7121416bdc083b7a503ae7be225b7f26833ff" alt="KMP 思想 2"
当我们发现已知的字符串可以匹配主串前几位时,就可以计算出下一步直接移动到哪里,跳过一些情况。
这就是 \(next\) 数组!
next 数组
next 定义
\(next(i)\) 表示在 \(t[1 .. i]\) 中,满足 \(t[1 .. x] = t[i - x + 1 .. i]\) 且 \(x < i\) 的最大的 \(x\)。(这里是对模式串做匹配哦)
\(s\) 是主串,\(t\) 是模式串。
next 用法
求出了 next 数组如何求出答案呢?
考虑一个字符串:
data:image/s3,"s3://crabby-images/cf700/cf7003edc2256e0d892d238b7fd90e233e443c98" alt="字符串 1"
那么它的 next 如下:
data:image/s3,"s3://crabby-images/aa03c/aa03c79c06919e2f237cd321cd9a78f204c00708" alt="字符串 2"
这个 next 有什么用呢?看下图:
data:image/s3,"s3://crabby-images/5e0fa/5e0facd40d79c8fe3a652dde058c1f21d67a3e07" alt="字符串 3"
我们发现,每次向后移动是将 能匹配上的字符串 的 长度为 \(next(i)\) 的前缀后缀 对齐。
也即:如果模式串 \(t\) 的前 \(i\) 个字符能匹配上,那么将模式串向后移动 \(i - next(i)\) 个字符,匹配下标从 \(i - next(i)\) 移动到 \(next(i)\)。(见下图)
data:image/s3,"s3://crabby-images/9e6fe/9e6fe3d301325bc649eaa9a93fb4980eaadcc8fb" alt="字符串 4"
next 求法
采用 DP 思想:现在已经求出了 \(next(1 .. i - 1)\),如何求 \(next(i)\)?
对于下面字符串:
data:image/s3,"s3://crabby-images/acf00/acf00b7b3840ef068158be421837d82f93e08dca" alt="转移 1"
第一种情况,向后一个字符(图中蓝色)也相同,直接转移即可。
data:image/s3,"s3://crabby-images/fc1fc/fc1fcaab41d0c3e8d5ae80a4eaff946159450df0" alt="转移 2"
第二种情况,向后一个字符(图中红色)不同。
data:image/s3,"s3://crabby-images/d721e/d721eb13d7e6b58606de460468455e125835360d" alt="转移 3"
怎么办呢?
这时就要退而求其次,也就是说我们要取一个比 \(next(i - 1)\) 更小一点的 \(x\) 使得 \(t[1 .. x] = t[i - x + 1 .. i]\)。
直接上结论:取 \(x = next(next(i - 1))\)
data:image/s3,"s3://crabby-images/c5e00/c5e00d6f555e24368e718af8dc58bf54a6e0a548" alt="转移 4"
原因:
由 \(next(i - 1)\) (红色)得③处相等,而由 \(next(next(i - 1))\) (绿色)得①处相等。
①和③放在一起推得①②的四个字符串都相等,所以得到 \(t[1 .. x] = t[i - x + 1 .. i]\)。
复杂度
容易发现 \(j\) 的增量不超过 \(n\) (见代码),所以它的减少量也不超过 \(n\),所以总复杂度 \(O(n)\)。
代码实现
1 | void kmp(const char *s, const char *t, vector<int> &ans) { // s, t 下标从 1 开始 |