一、Token的本质与分类 Token是自然语言处理(NLP)中的基础单元,其本质是将连续文本拆解为离散符号序列的过程。从技术实现看,Token可分为三类: 字符级Token直接以单个字符作为最小单元,例如英文中的”a”、”b”……