基于Keras构建MLP、RNN与LSTM模型实现影评情感分析

一、引言：文本情感分析的技术演进

文本情感分析作为自然语言处理（NLP）的经典任务，旨在通过算法判断文本的情感倾向（如积极/消极）。传统机器学习方法依赖手工特征工程，而深度学习通过自动学习文本的层次化表示，显著提升了分类性能。在影评数据集的情感分析场景中，循环神经网络（RNN）及其变体LSTM因能捕捉序列依赖关系而备受关注，而多层感知机（MLP）则作为基础对比模型提供性能基准。

本文将以Keras框架为核心，系统实现MLP、RNN、LSTM三种模型，对比其在影评情感分类任务中的表现。通过完整代码示例与关键参数解析，读者可掌握从数据预处理到模型部署的全流程技术细节。

二、数据准备与预处理

1. 数据集选择与加载

实验采用公开影评数据集，包含5万条训练样本与2.5万条测试样本，每条样本为影评文本及其对应的二元情感标签（0=消极，1=积极）。Keras内置的imdb.load_data()函数可直接加载该数据集，并支持通过num_words参数限制词汇表大小。

from keras.datasets import imdb
# 加载数据集，限制词汇量为10000
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

2. 文本序列的向量化处理

原始数据为整数序列，每个整数代表词典中的单词索引。为统一输入长度，需通过pad_sequences函数进行填充或截断：

from keras.preprocessing.sequence import pad_sequences
# 设置最大序列长度为500
max_len = 500
x_train_padded = pad_sequences(x_train, maxlen=max_len)
x_test_padded = pad_sequences(x_test, maxlen=max_len)

3. 数据集划分与验证集构建

为评估模型泛化能力，需从训练集中划分10%作为验证集：

from sklearn.model_selection import train_test_split
x_train_sub, x_val, y_train_sub, y_val = train_test_split(
    x_train_padded, y_train, test_size=0.1, random_state=42
)

三、模型构建与实现

1. MLP模型：全连接网络的基础实现

MLP通过多层全连接层学习文本的固定长度表示，适用于已向量化且长度一致的文本数据。

from keras.models import Sequential
from keras.layers import Dense, Embedding, Flatten
def build_mlp_model(input_dim, max_len):
    model = Sequential([
        Embedding(input_dim=input_dim, output_dim=32, input_length=max_len),
        Flatten(),
        Dense(64, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model
mlp_model = build_mlp_model(10000, max_len)
mlp_model.summary()

关键参数说明：

Embedding层将整数索引映射为32维密集向量
Flatten层将三维输入展平为二维，适配全连接层
输出层使用sigmoid激活函数处理二元分类

2. RNN模型：捕捉序列依赖关系

RNN通过循环单元处理变长序列，但存在梯度消失问题，适合短序列场景。

from keras.layers import SimpleRNN
def build_rnn_model(input_dim, max_len):
    model = Sequential([
        Embedding(input_dim=input_dim, output_dim=32, input_length=max_len),
        SimpleRNN(64, return_sequences=False),  # 仅输出最后时间步
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model
rnn_model = build_rnn_model(10000, max_len)
rnn_model.summary()

优化建议：

设置return_sequences=True可获取所有时间步输出，适用于堆叠RNN层
增加Dropout层防止过拟合

3. LSTM模型：长序列依赖的解决方案

LSTM通过门控机制缓解梯度消失问题，更适合处理长文本。

from keras.layers import LSTM
def build_lstm_model(input_dim, max_len):
    model = Sequential([
        Embedding(input_dim=input_dim, output_dim=32, input_length=max_len),
        LSTM(64, dropout=0.2, recurrent_dropout=0.2),  # 添加Dropout
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model
lstm_model = build_lstm_model(10000, max_len)
lstm_model.summary()

参数调优技巧：

dropout与recurrent_dropout分别控制输入与循环连接的随机失活
增加LSTM单元数（如128）可提升模型容量，但需注意过拟合风险

四、模型训练与评估

1. 统一训练配置

batch_size = 64
epochs = 10
# 训练MLP模型
mlp_history = mlp_model.fit(
    x_train_sub, y_train_sub,
    batch_size=batch_size,
    epochs=epochs,
    validation_data=(x_val, y_val)
)
# 训练RNN与LSTM模型（代码结构类似）

2. 性能对比与可视化

通过Matplotlib绘制训练曲线：

import matplotlib.pyplot as plt
def plot_history(history, model_name):
    plt.figure(figsize=(12, 4))
    plt.subplot(1, 2, 1)
    plt.plot(history.history['accuracy'], label='Train Accuracy')
    plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
    plt.title(f'{model_name} Accuracy')
    plt.legend()
    plt.subplot(1, 2, 2)
    plt.plot(history.history['loss'], label='Train Loss')
    plt.plot(history.history['val_loss'], label='Validation Loss')
    plt.title(f'{model_name} Loss')
    plt.legend()
    plt.show()
plot_history(mlp_history, 'MLP')
# 对RNN与LSTM模型调用相同函数

典型结果分析：

MLP：训练速度快，但长文本性能受限
RNN：短序列表现接近LSTM，长序列易出现梯度消失
LSTM：验证集准确率通常比MLP高3%-5%，但训练时间增加40%

3. 测试集评估与预测

test_loss, test_acc = lstm_model.evaluate(x_test_padded, y_test)
print(f'LSTM Test Accuracy: {test_acc:.4f}')
# 单条样本预测示例
sample_text = ["This movie was fantastic! The acting was superb."]
# 实际实现需包含文本到索引序列的转换逻辑
# predicted = lstm_model.predict(processed_sample)

五、性能优化与工程实践

1. 超参数调优策略

嵌入维度：从16开始尝试，32/64通常能获得更好效果
序列长度：通过词频统计选择覆盖95%文本的长度
正则化：LSTM层后添加BatchNormalization可加速收敛

2. 部署优化建议

模型压缩：使用prune_low_magnitude进行权重剪枝
量化转换：通过TFLiteConverter将模型转为8位整数格式
服务化部署：结合百度智能云等平台的模型服务接口实现API调用

六、总结与扩展方向

本文通过Keras实现了MLP、RNN、LSTM三种模型在影评情感分析中的应用，实验表明LSTM在长文本场景下具有显著优势。未来工作可探索：

引入预训练词向量（如GloVe）提升初始表示质量
尝试双向LSTM或注意力机制捕捉更复杂的语义关系
结合百度智能云的自然语言处理服务构建端到端解决方案

完整代码与数据预处理脚本已封装为Jupyter Notebook，读者可通过调整模型参数快速复现实验结果。