140亿参数长文本大模型：突破百万Token处理的技术革新 - 云主机网

最新文章

140亿参数长文本大模型：突破百万Token处理的技术革新

技术背景与架构创新传统Transformer架构受限于自注意力机制的平方复杂度，通常仅能处理4K-32K Token的上下文。2025年1月推出的140亿参数大模型通过Dual Chunk Attention（双分块注意力）机制突破这一瓶颈，将上下……

2026年1月21日互联网