一、Embedding显存占用问题与EDO显存优化背景 在深度学习模型中,Embedding层作为将离散符号映射为连续向量的核心组件,其显存占用通常占据模型总显存的30%-60%。以BERT-base模型为例,其词表量达3万,每个token的……