从文本特征到输入及语言建模：原理与应用

引言

自然语言处理（NLP）技术的核心在于将人类语言转化为计算机可理解的数学表示，并基于此构建预测或生成模型。这一过程涵盖三个关键环节：文本特征提取（将原始文本转化为结构化特征）、输入表示（构建适合模型处理的向量空间）和语言建模（学习语言规律并生成合理输出）。本文将系统梳理这三个环节的技术原理、典型方法及工程应用，结合代码示例与优化建议，为开发者提供可落地的技术指南。

一、文本特征提取：从非结构化到结构化

1.1 基础特征：词法与句法分析

文本特征提取的首要任务是将非结构化的文本转化为计算机可处理的符号序列。传统方法依赖词法分析（如分词、词性标注）和句法分析（如依存句法、短语结构树），例如中文分词工具Jieba通过前向最大匹配算法将句子拆分为词序列：

import jieba
text = "自然语言处理是人工智能的重要分支"
words = jieba.lcut(text)  # 输出：['自然语言', '处理', '是', '人工智能', '的', '重要', '分支']

此类方法虽简单，但存在分词歧义（如”结婚的和尚未结婚的”）和领域适应性差的问题。

1.2 统计特征：N-gram与TF-IDF

为捕捉局部语言模式，N-gram模型将连续的N个词作为一个特征单元。例如，二元模型（Bigram）可提取”自然语言处理”、”处理是”等组合。TF-IDF则通过词频（TF）与逆文档频率（IDF）的乘积衡量词的重要性，适用于文本分类任务：

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["自然语言处理很重要", "深度学习是人工智能的核心"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)  # 输出稀疏矩阵

此类方法依赖统计规律，但无法捕捉语义信息（如”猫”和”狗”的TF-IDF可能相近，但语义不同）。

1.3 语义特征：词向量与上下文表示

为解决语义缺失问题，词向量技术（如Word2Vec、GloVe）通过共现统计或神经网络将词映射为低维稠密向量。例如，Word2Vec的Skip-gram模型通过预测上下文词学习词向量：

import gensim
sentences = [["自然语言", "处理"], ["深度学习", "人工智能"]]
model = gensim.models.Word2Vec(sentences, vector_size=100, window=5)
print(model.wv["自然语言"])  # 输出100维词向量

此类方法虽能捕捉语义相似性（如”国王”与”皇后”的向量接近），但无法处理一词多义（如”苹果”指水果或公司）。

二、输入表示：从离散符号到连续向量

2.1 静态词向量与上下文无关

传统词向量（如Word2Vec）为每个词分配固定向量，忽略上下文影响。例如，”bank”在”river bank”和”bank loan”中含义不同，但静态向量无法区分。此类表示适用于简单任务（如文本分类），但在复杂场景（如问答系统）中表现受限。

2.2 动态词向量与上下文感知

为解决一词多义问题，ELMo、BERT等模型通过上下文动态生成词向量。例如，BERT基于Transformer架构，通过双向语言模型捕捉上下文信息：

from transformers import BertTokenizer, BertModel
import torch
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertModel.from_pretrained('bert-base-chinese')
inputs = tokenizer("自然语言处理很重要", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state  # 上下文感知的词向量

此类方法虽能区分多义词，但计算成本较高，需权衡精度与效率。

2.3 位置编码与序列建模

为处理序列顺序，Transformer引入位置编码（Positional Encoding），将位置信息注入词向量。例如，正弦位置编码通过不同频率的三角函数生成位置向量：

import numpy as np
def positional_encoding(max_len, d_model):
    position = np.arange(max_len)[:, np.newaxis]
    div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))
    pe = np.zeros((max_len, d_model))
    pe[:, 0::2] = np.sin(position * div_term)
    pe[:, 1::2] = np.cos(position * div_term)
    return pe
pe = positional_encoding(10, 512)  # 生成10个位置的512维编码

此类方法使模型能感知词序，是Transformer成功的关键之一。

三、语言建模：从统计规律到深度生成

3.1 统计语言模型：N-gram与平滑技术

统计语言模型通过计算词序列的概率预测下一个词。例如，三元模型（Trigram）计算P(w3|w1,w2)：

from nltk import trigrams
from collections import defaultdict
corpus = ["自然语言处理很重要", "深度学习是人工智能的核心"]
trigram_counts = defaultdict(int)
for sentence in corpus:
    for trigram in trigrams(sentence.split()):
        trigram_counts[trigram] += 1
# 计算概率（需结合词频平滑）

此类方法简单但存在数据稀疏问题，需通过平滑技术（如Kneser-Ney）缓解。

3.2 神经语言模型：RNN与注意力机制

为捕捉长程依赖，RNN及其变体（LSTM、GRU）通过循环结构传递历史信息。例如，LSTM单元通过输入门、遗忘门和输出门控制信息流动：

import torch.nn as nn
lstm = nn.LSTM(input_size=100, hidden_size=128, num_layers=2)
inputs = torch.randn(10, 32, 100)  # 序列长度10，batch_size32，特征维度100
outputs, (hn, cn) = lstm(inputs)  # 输出(10,32,128)

此类方法虽能处理长序列，但存在梯度消失/爆炸问题，且并行计算能力差。

3.3 自注意力与Transformer架构

为解决RNN的缺陷，Transformer通过自注意力机制直接捕捉序列中任意位置的关系。例如，多头注意力通过线性变换将查询（Q）、键（K）、值（V）映射到多个子空间：

import torch.nn.functional as F
def scaled_dot_product_attention(Q, K, V):
    d_k = Q.size(-1)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k))
    attn_weights = F.softmax(scores, dim=-1)
    return torch.matmul(attn_weights, V)
# 实际应用中需结合多头机制与层归一化

此类方法使模型能并行处理序列，且通过注意力权重直观展示词间关系（如”苹果”在”iPhone”上下文中更关注”公司”而非”水果”）。

四、工程应用与优化建议

4.1 任务适配与模型选择

文本分类：优先选择BERT等预训练模型，微调最后几层。
序列标注：BiLSTM-CRF结合序列建模与标签约束。
文本生成：GPT类自回归模型或BART等序列到序列模型。

4.2 效率优化技巧

量化与剪枝：将FP32权重转为INT8，减少模型大小。
知识蒸馏：用大模型（如BERT）指导小模型（如DistilBERT）训练。
动态批处理：根据序列长度动态调整batch大小，提升GPU利用率。

4.3 领域适应策略

持续预训练：在通用预训练模型基础上，用领域数据进一步训练。
数据增强：通过回译、同义词替换生成更多训练样本。
提示学习（Prompt Tuning）：将下游任务转化为语言模型可理解的形式（如将分类任务转为”这句话属于[MASK]类”）。

结论

从文本特征提取到输入表示，再到语言建模，NLP技术已形成完整的技术栈。开发者需根据任务需求（如精度、效率、领域适应性）选择合适的方法：简单任务可用统计特征或静态词向量，复杂任务需依赖动态词向量与Transformer架构。未来，随着多模态学习与高效推理技术的发展，NLP模型将更贴近实际应用场景，为智能客服、内容生成等领域提供更强支持。

从文本特征到语言建模：技术路径与实践指南