字符串算法面试精讲：字符串哈希与KMP算法解析

在算法面试中，字符串相关题目是高频考点，尤其是字符串匹配、查找和去重等问题。这类题目不仅考察候选人对基础算法的理解，还考验其优化思维和工程实践能力。本文将围绕字符串哈希和KMP算法展开，结合面试常见问题，解析其原理、实现细节及优化思路，帮助读者高效应对相关考题。

一、字符串哈希：高效去重与匹配的利器

1.1 哈希函数的核心原理

字符串哈希通过将字符串映射为唯一的哈希值，实现快速比较和去重。其核心在于设计一个高效的哈希函数，使得不同字符串的哈希值尽可能不同（低碰撞率），同时计算复杂度为O(n)。

常见哈希函数设计：

多项式滚动哈希：以固定基数（如26或256）对字符进行加权求和，公式为：
hash = (c1 * p^(n-1) + c2 * p^(n-2) + ... + cn) % mod
其中，p为基数，mod为大质数（如1e9+7），用于避免溢出。
BKDR哈希：结合异或和乘法操作，增强随机性。

示例代码（多项式滚动哈希）：

def string_hash(s, base=26, mod=1e9+7):
    hash_val = 0
    for char in s:
        hash_val = (hash_val * base + ord(char)) % mod
    return hash_val

1.2 哈希冲突的解决策略

哈希冲突是不可避免的，但可通过以下方法降低影响：

双哈希法：使用两个不同的哈希函数计算哈希值，仅当两者均冲突时才判定为重复。
链地址法：将哈希值相同的字符串存入链表，比较时逐个检查。
布隆过滤器：适用于大规模数据去重，但存在误判率。

1.3 面试题解析：子字符串哈希匹配

题目：给定两个字符串s和t，判断t是否为s的子串。
解法：

计算t的哈希值hash_t。
滑动窗口遍历s，计算每个与t等长子串的哈希值hash_sub。
若hash_sub == hash_t，则进一步验证字符是否完全匹配（避免哈希冲突）。
时间复杂度：O(n)，优于暴力匹配的O(n*m)。

二、KMP算法：模式匹配的经典解法

2.1 KMP算法的核心思想

KMP算法通过预处理模式串t，构建部分匹配表（Partial Match Table，PMT），利用已匹配信息跳过不必要的比较，将时间复杂度从暴力匹配的O(n*m)优化至O(n+m)。

PMT构建规则：
PMT[i]表示模式串t的前i个字符组成的子串中，最长的相同前缀和后缀的长度。例如，模式串"ababc"的PMT为[0, 0, 1, 2, 0]。

示例代码（构建PMT）：

def build_pmt(t):
    pmt = [0] * len(t)
    j = 0
    for i in range(1, len(t)):
        while j > 0 and t[i] != t[j]:
            j = pmt[j-1]
        if t[i] == t[j]:
            j += 1
            pmt[i] = j
    return pmt

2.2 KMP匹配过程

初始化指针i=0（主串s）、j=0（模式串t）。
遍历s，若s[i] == t[j]，则i+=1，j+=1；否则，根据PMT回退j（j = pmt[j-1]）。
若j == len(t)，则匹配成功，返回起始位置i-j。

示例代码（KMP匹配）：

def kmp_search(s, t):
    pmt = build_pmt(t)
    j = 0
    for i in range(len(s)):
        while j > 0 and s[i] != t[j]:
            j = pmt[j-1]
        if s[i] == t[j]:
            j += 1
        if j == len(t):
            return i - j + 1  # 返回匹配起始位置
    return -1  # 未匹配

2.3 面试题解析：重复子串检测

题目：判断字符串s是否由其某个子串重复多次构成（如"abab"由"ab"重复构成）。
解法：

构建s + s的PMT，取最后一个值pmt[-1]。
若pmt[-1] % (len(s) - pmt[-1]) == 0，则存在重复子串。
示例：s="abab"，pmt=[0,0,1,2]，len(s)-pmt[-1]=2，4%2=0，返回True。

三、算法对比与优化思路

3.1 字符串哈希 vs KMP算法

维度	字符串哈希	KMP算法
时间复杂度	O(n)（预处理+匹配）	O(n+m)（预处理+匹配）
空间复杂度	O(1)（单哈希）	O(m)（存储PMT）
适用场景	大规模数据去重、快速比较	精确模式匹配、重复子串检测
缺点	哈希冲突需额外处理	PMT构建较复杂

3.2 优化实践建议

哈希函数选择：
- 对ASCII字符，基数选256；对小写字母，选26。
- 大质数mod可减少碰撞（如1e9+7或1e9+9）。
KMP预处理优化：
- 构建PMT时，可合并循环与条件判断，减少分支预测开销。
工程实践：
- 结合布隆过滤器与哈希，实现大规模数据的高效去重。
- 对超长字符串，可分段哈希或使用多线程加速。

四、总结与面试应对策略

理解算法本质：
- 哈希的核心是“快速映射与冲突处理”，KMP的核心是“利用已匹配信息跳过比较”。
手写代码能力：
- 面试中常要求现场实现哈希函数或PMT构建，需熟练代码结构。
复杂度分析：
- 明确算法的时间/空间复杂度，并能解释优化原因。
变种题应对：
- 如“最长无重复子串”可用哈希+滑动窗口，“最长公共前缀”可用KMP变种。

通过掌握字符串哈希与KMP算法，候选人不仅能高效解决面试中的字符串问题，还能在工程实践中优化字符串处理性能，提升代码质量与系统效率。