一、基于规则的n-gram文本相似度计算 1.1 核心原理与典型算法 规则匹配方案通过分解文本为离散单元(如字符、词或短语)进行相似度比较,其中n-gram模型是核心方法。该模型将连续的n个字符或词作为基本单元,通过……