ByteDance发明"虚拟宽度网络"：让AI模型更聪明！却不增加计算负担

更新时间：2026-01-21 17:51 来源：牛马见闻

为什么现在吃方便面的人越来越少了？,为啥现在方便面不好吃了

人民日报就西贝关店事件发声！贾国龙、罗永浩，谁赢了？,西贝董事长贾国龙哭诉

美国人虽然笨，但是不傻,美国人傻不傻

记者：虽然回归切尔西一线队训练，但迪萨西的未来依然不明朗,切尔西队长蒂亚戈席尔瓦

北美玩具大厂 Sideshow 做的树脂苹果玩具摆件

在处理当前任务时同时维护和更新一在实际应用测试中�平均准确率提升了2.

这项由ByteDance Seed团队完]成的研究发)表于2025年11月，论文编号为arXiv:2511.11238v1，有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队由Defa Zhu领导，包含超过100位来自ByteDance的研究人员，他们共同攻克了人工智能领域一个长期存在的难题。 当我们使用智能手机的语音助手或者与聊天机器人对话时，背后运行的都是大型语言模型。这些AI模型就像一个巨大的图书馆，里面存储着海量的知识。要让这个"图书馆"变得更聪明，传统做法是扩建更多的书架，但这会导致整个图书馆的运营成本急剧上升。ByteDance的研究团队提出了一个巧妙的解决方案：不增加书架，而是让每本书能够存储更多信息。 这项研究的核心创新在于一种叫做"虚拟宽度网络"的技术。传统的AI模型结构就像一条固定宽度的高速公路，车道数量决定了信息处理能力。要提升性能，通常需要增加车道数量，但这会让整条高速公路的建设和维护成本呈几何倍数增长。虚拟宽度网络的做法完全不同，它保持高速公路主干道的宽度不变，但在入口和出口处设置了更宽的缓冲区域，让信息在这些区域内能够更好地组织和处理。 研究团队在大规模实验中验证了这一方法的有效性。他们使用了一个拥有33亿激活参数的混合专家模型进行测试，结果令人瞩目。当虚拟宽度扩展8倍时，模型达到相同性能水平所需的训练数据量减少了一半以上。更令人惊讶的是，在预测下一个词汇的任务中，新方法的效率提升了2.5倍，而在预测接下来两个词汇的任务中，效率提升了3.5倍。 一、破解AI模型性能提升的两难困境 AI模型的发展历程就像城市建设的演进过程。早期的AI模型如同小镇，功能简单但运行高效。随着需求增长，我们需要建设更大的城市来承载更复杂的功能。传统的扩展方式是同步扩大所有基础设施，道路要加宽，建筑要加高，水电网络也要全面升级。这种做法虽然有效，但成本会呈指数级增长。 在AI领域，这个问题表现得尤为突出。当我们想要提升模型的性能时，通常需要增加模型的"宽度"，也就是每一层神经网络中神经元的数量。这就像给每条街道增加更多车道。但问题在于，如果将车道从2条增加到4条，不仅道路建设成本翻倍，整个城市的交通管理复杂度也会呈平方级增长。 研究团队观察到了一个关键现象：在实际运行中，模型的大部分计算资源都花费在中间层的处理上，而输入和输出层的计算成本相对较低。这就像发现城市中90%的交通拥堵都发生在市中心的几条主干道上，而进出城市的高速公路入口反而相对空闲。 基于这个观察，他们提出了一个创新思路：保持城市核心区域的道路宽度不变，但在城市入口处建设更宽敞的集散区域。在这些区域内，来自不同方向的车辆可以更好地组织和调配，然后有序地进入市中心的标准道路网络。当车辆离开市中心时，又可以在出口区域进行重新整合，最终以更高的效率驶离城市。 这种设计哲学的核心在于"解耦"。传统方法将输入处理、核心计算和输出生成的复杂度绑定在一起，任何一个环节的扩展都会牵动全局。而虚拟宽度网络将这三个环节分离开来，让每个环节都能根据自己的特点进行独立优化。 为了验证这个想法，研究团队需要解决一个关键的技术挑战：如何让宽敞的输入区域与标准宽度的核心网络有效连接。这需要设计一套精巧的"转换机制"，能够将丰富的输入信息压缩成核心网络能够处理的格式，同时在输出时又能将核心网络的计算结果扩展成更丰富的表示形式。 二、广义超连接：让信息在不同维度间自由流动 解决宽输入区域与标准核心网络连接的关键在于一种叫做"广义超连接"的技术。如果把传统的神经网络比作一个工厂的流水线，每个工位都有固定的操作台面积，那么广义超连接就像在流水线的特定位置安装了可伸缩的工作台。 传统的神经网络连接方式相当直接，就像接力赛中运动员手把手传递接力棒。每一层的输出直接成为下一层的输入，维度必须完全匹配。但当我们想要在某些层使用更宽的表示时，就会出现"接力棒"尺寸不匹配的问题。一个宽度为100的层无法直接连接到宽度为300的层。 广义超连接技术巧妙地解决了这个问题。它的工作原理类似于一个智能的信息分拣中心。当信息从宽度较小的层传递到宽度较大的层时，分拣中心会根据预设的规则将信息复制、重组和扩展，确保能够充分利用目标层的所有容量。反过来，当信息需要从宽层传递到窄层时，分拣中心又会进行智能压缩，提取最重要的信息特征。 具体来说，研究团队设计了两套转换矩阵。第一套叫做"宽度连接矩阵"，负责处理同一层内不同宽度区域之间的信息交换。想象一个大型会议室被分成多个小组讨论区域，宽度连接矩阵就像会议主持人，负责协调各个小组之间的信息分享。每个小组的讨论结果会被收集、整理，然后分发给需要这些信息的其他小组。 第二套叫做"深度连接矩阵"，负责处理不同层之间的信息传递。这就像楼层间的电梯系统，需要将不同楼层的信息进行适当的格式转换。从3楼传到5楼的信息可能需要增加一些上下文，而从10楼传到2楼的信息则需要进行精简提取。 更加巧妙的是，这些连接矩阵不是固定不变的。研究团队引入了"动态"机制，让连接方式能够根据当前处理的具体信息内容进行调整。这就像智能交通系统，能够根据实时路况调整红绿灯时长和车道分配。当模型处理复杂文本时，系统可能会加强某些信息通道的连接强度，而处理简单内容时则可能简化连接模式。 动态连接的实现涉及一个精巧的设计。系统首先对当前的信息进行"体检"，评估其复杂度和重要性。然后基于这个评估结果，动态生成最适合的连接参数。这个过程类似于专业摄影师根据拍摄场景调整相机设置，不同的场景需要不同的光圈、快门和ISO组合。 为了确保这套复杂的连接系统能够稳定工作，研究团队还设计了特殊的初始化策略。就像调音钢琴需要专业的起始调音一样，广义超连接系统也需要一个良好的起始状态。他们采用了循环模式来初始化宽度连接，确保信息能够在不同区域间均匀分布。对于深度连接，则采用了块状矩阵结构，既保持了信息的完整性，又引入了适度的混合机制。 三、多词元预测：让AI学会"看得更远" 传统的AI语言模型训练就像教孩子逐字阅读，每次只关注下一个字是什么。虽然这种方法简单有效，但缺少了人类阅读时的"预见性"。当我们读到"今天天气很"时，大脑会自动预期接下来可能是"好"、"差"、"热"等词语，而不仅仅是下一个字。 多词元预测技术让AI模型具备了这种"预见性"。它不再满足于仅仅预测下一个词，而是同时尝试预测接下来的两个、三个甚至更多词语。这就像从近视眼变成了远视眼，能够看到更远的语言景象。 这种扩展的预测能力与虚拟宽度网络形成了完美的配合。想象一个图书管理员，原来他只需要知道读者要借哪一本书，现在他需要预测读者接下来可能要借的整套书籍。这就需要更大的记忆容量和更复杂的关联分析能力。虚拟宽度网络提供的扩展表示空间正好满足了这个需求。 在具体实现上，研究团队采用了一种巧妙的"级联预测"结构。模型首先生成当前位置的词语表示，然后将这个表示与下一个位置的词嵌入结合，形成一个更丰富的联合表示。基于这个联合表示，模型可以预测下下个位置的词语。这个过程可以继续延伸，形成一个预测链条。 这种设计的优势在于渐进式的复杂度增长。预测下一个词语相对简单，需要的计算资源较少。预测第二个词语时，模型已经有了第一个词的信息作为辅助，虽然难度增加但仍然可控。随着预测距离的延长，难度确实会增加，但这种增加是平滑的，不会出现突然的复杂度爆炸。 为了避免多词元预测带来的计算开销过度增长，研究团队设计了一种"块级线性"混合策略。传统的做法可能是为每个预测位置都配备一套完整的计算网络，这会导致参数数量和计算量的倍数增长。块级线性策略的做法是将扩展的表示空间分割成若干个块，每个块内部使用相同的计算模块，只有块之间采用不同的处理方式。 这就像组装汽车生产线，不是为每种车型建设完全独立的生产线，而是使用模块化的工位。基础的组装工位可以处理所有车型的通用部分，只有在特殊工位才针对不同车型进行差异化处理。这种设计大大降低了建设成本，同时保持了产品的多样性。 实验结果显示，多词元预测与虚拟宽度网络的结合产生了显著的协同效应。在预测准确性方面，模型不仅在下一个词的预测上表现更好，在预测第二个、第三个词时的优势更加明显。这表明扩展的表示空间确实为更远距离的预测提供了有效的支持。 四、连接视角下的深度记忆机制 ByteDance团队从一个全新的角度重新审视了虚拟宽度网络的工作机制，他们将其比作一种特殊的"深度记忆系统"。这个视角的转换为理解整个技术的本质提供了更深刻的洞察。 传统的神经网络可以想象成一个只有短期记忆的工作者。每处理完一个任务，他就会忘记大部分细节，只保留最基本的结果传递给下一个环节。这种设计简单高效，但缺乏长期记忆能力。虚拟宽度网络则像一个拥有结构化记忆系统的智能体，它能够在处理当前任务时同时维护和更新一个持续的记忆库。 这个记忆库的关键特征是"分层存储"。就像人类的大脑会将不同类型的记忆存储在不同的区域一样，虚拟宽度网络的记忆空间也被划分成多个专门的存储槽。每个槽位负责保存特定类型或特定时期的信息。当新信息到来时，系统会智能地决定哪些信息需要存储、存储在哪个槽位、以及哪些旧信息需要被遗忘或压缩。 记忆管理的核心是一套"注意力机制"。这不同于传统的注意力机制，后者主要关注当前输入中不同部分的重要性。深度记忆的注意力机制关注的是历史信息的相关性和有用性。它会评估记忆库中的每条信息对当前任务的贡献程度，然后决定如何使用这些信息。 具体来说，当模型处理到第100层时，它不仅可以使用第99层的直接输出，还可以访问存储在记忆库中的第95层、第90层甚至更早层次的信息。这些信息经过了压缩和抽象，但仍然保留了对当前任务有用的关键特征。这就像一个经验丰富的医生，在诊断新病例时不仅会考虑当前的症状，还会调用记忆中类似病例的诊疗经验。 记忆容量的分配是一个微妙的平衡问题。研究团队发现，记忆库的总容量相当于原始网络宽度的几倍时，效果最为理想。容量太小会导致重要信息的丢失，容量太大则会引入过多噪音。他们还发现，将记忆库划分成较多的小槽位比划分成较少的大槽位效果更好，这类似于使用多个小抽屉比使用一个大箱子更便于组织和查找物品。 记忆的更新策略也很重要。系统采用了"软遗忘"机制，而不是硬性的信息替换。当新信息需要存储时，旧信息不会立即消失，而是逐渐衰减。这种设计允许模型在一定时间内保持对多种可能性的开放态度，避免过早地丢弃可能有用的信息。 在实际应用中，这种深度记忆机制表现出了显著的优势。模型在处理长文本时能够更好地保持上下文一致性，在处理复杂推理任务时能够更有效地利用先前的中间结果。这种能力对于需要多步推理的任务尤其重要，比如数学问题求解或复杂的文本理解。 五、缩放法则的新发现 研究团队在大规模实验中发现了一个令人兴奋的规律：虚拟宽度扩展因子与模型性能改进之间存在着一种稳定的对数线性关系。这个发现为AI模型的设计和优化开辟了一个全新的维度。 传统的AI缩放研究主要关注三个维度：模型参数数量、训练数据规模和计算资源投入。这些研究告诉我们，在这三个维度上的投入与模型性能之间存在着可预测的关系。虚拟宽度的发现增加了第四个维度，而且这个维度具有独特的优势：它能够在几乎不增加计算成本的情况下提升性能。 具体的数学关系显示，虚拟宽度每增加一倍，模型的损失函数值会减少大约0.0069。虽然这个数字看起来很小，但在AI模型的评估体系中，这是一个相当显著的改进。更重要的是，这种改进的成本极低，不像传统的缩放方法需要成倍增加计算资源。 研究团队通过多组对照实验验证了这个规律的稳定性。他们测试了从2倍到8倍的不同虚拟宽度扩展，每次都观察到了一致的改进模式。这种一致性表明，虚拟宽度缩放确实揭示了AI模型优化的一个基本规律，而不是偶然现象。 这个发现的实际意义非常深远。对于AI模型的开发者来说，这意味着他们有了一个新的"调节旋钮"。当面临性能需求和资源限制的权衡时，虚拟宽度扩展提供了一个高性价比的选择。例如，如果传统方法需要将模型规模扩大4倍才能达到目标性能，现在可能只需要将虚拟宽度扩展8倍就能达到类似效果，而计算成本的增加微乎其微。 研究团队还观察到，虚拟宽度的效果在训练过程中是累积的。也就是说，训练时间越长，虚拟宽度带来的优势越明显。这与传统的模型优化方法形成了有趣的对比。许多优化技术在训练初期效果明显，但随着训练进行，边际收益会递减。虚拟宽度技术则恰恰相反，它的收益随着训练的深入而逐渐放大。 这种累积效应的原因可能在于虚拟宽度网络的学习机制。在训练早期，模型主要学习基础的语言模式，这时候标准宽度就足够了。但随着训练的深入，模型开始学习更复杂、更细致的语言现象，这时候扩展的表示空间就发挥了关键作用。额外的维度为模型提供了更多的"学习自由度"，让它能够捕捉到更微妙的语言规律。 六、大规模验证实验的精彩结果 为了验证虚拟宽度网络的实际效果，研究团队进行了一系列规模空前的实验。他们使用了多个不同规模的模型，从8亿参数的小型模型到33亿参数的大型模型，每个模型都训练了数千亿个词元的数据。 最引人瞩目的实验使用了一个33亿激活参数的混合专家模型。这个模型采用了8倍虚拟宽度扩展，也就是说，输入层的表示维度是核心网络的8倍。训练过程持续了3.2万亿个词元，相当于阅读了数百万本书籍的内容。 实验结果令人震撼。在下一个词预测任务上，采用虚拟宽度网络的模型达到基准模型同等性能水平只需要40%的训练数据。换句话说，虚拟宽度网络的学习效率是传统方法的2.5倍。在更具挑战性的下两个词预测任务上，效率提升更加显著，达到了3.5倍。 这种效率提升在训练过程中表现出明显的加速趋势。在训练初期，虚拟宽度模型的优势相对温和，损失函数的改进大约为0.025。但随着训练的进行，这个差距逐渐扩大，到训练结束时达到了0.032。这种趋势表明，虚拟宽度网络不仅能够学得更快，而且能够学到传统方法难以掌握的复杂模式。 在实际应用测试中，虚拟宽度网络的优势同样明显。研究团队在包括数学推理、阅读理解、代码生成等多个任务上进行了评估。结果显示，虚拟宽度模型在所有测试任务上都实现了显著改进，平均准确率提升了2.16个百分点。这个数字在AI评估标准中代表着非常可观的进步。 特别值得注意的是不同类型任务的改进幅度差异。在需要复杂推理的数学问题上，虚拟宽度网络的优势最为突出，准确率提升了4.2个百分点。在阅读理解任务上，提升达到了8.92个百分点。这些结果表明，虚拟宽度技术在处理需要深度思考和长期依赖的任务时特别有效。 研究团队还测试了不同虚拟宽度扩展因子的效果。他们比较了2倍、4倍和8倍扩展的性能差异，发现性能改进确实与扩展倍数呈对数关系。8倍扩展的模型相比2倍扩展的模型，在各项指标上都有进一步的提升，验证了之前发现的缩放规律。 成本分析显示，虚拟宽度网络的额外开销主要来自存储扩展表示的内存消耗，而计算开销的增加非常有限。在典型的8倍扩展配置下，训练过程中的内存使用增加约8.8%，而计算时间几乎没有明显变化。这种性价比使得虚拟宽度技术在实际部署中具有很强的吸引力。 七、技术细节与工程实现 虚拟宽度网络的成功不仅在于理论设计的巧妙，更在于工程实现的精细。研究团队在技术实现过程中解决了许多看似微小但实际关键的问题，这些细节决定了整个系统的稳定性和效率。 首先是参数初始化的策略。神经网络的初始化就像调音钢琴，每个参数的起始值都会影响整个系统的学习过程。对于虚拟宽度网络中的连接矩阵，研究团队采用了一种"循环模式"初始化。想象在一个圆桌会议中，每个参会者都要与特定的其他几个人进行交流，循环模式确保了信息交流的均匀性和完整性。 动态参数的初始化更加精妙。这些参数负责根据输入内容调整连接模式，如果初始化不当，可能会导致系统过于敏感或过于迟钝。研究团队将动态参数的初始值设置为零，这样系统在训练开始时会依赖静态连接，随着学习的进行逐渐发展出适应性连接能力。这种"从简单到复杂"的学习路径被证明是非常有效的。 内存优化是另一个关键挑战。虚拟宽度网络需要存储比传统网络更多的中间状态，如果处理不当，可能会导致内存消耗的爆炸性增长。研究团队采用了一种"选择性保存"策略，只保存那些在反向传播过程中真正需要的中间状态，其他状态则通过廉价的重计算来恢复。 这种策略的实现需要精确的依赖分析。系统需要提前分析哪些中间状态可以通过重计算获得，哪些必须保存。这个过程类似于搬家时决定哪些物品需要精心包装保护，哪些可以简单处理。通过这种优化，内存开销被控制在可接受的范围内。 计算融合是提升效率的另一个重要手段。虚拟宽度网络中有许多小规模的矩阵运算，如果逐一执行会产生大量的GPU内存访问开销。研究团队将这些操作融合成更大的计算核，减少了内存访问次数，显著提升了执行效率。 这种融合需要精心的设计。不同操作的融合必须保证数学上的等价性，同时还要考虑GPU硬件的特性。研究团队开发了专门的编译器优化passes，能够自动识别可融合的操作模式并生成高效的GPU代码。 数值稳定性是深度学习系统的另一个重要考虑。虚拟宽度网络中的矩阵运算可能会放大数值误差，导致训练不稳定。研究团队引入了多种稳定性保障机制，包括梯度裁剪、自适应缩放和正则化技术。 特别是在处理大规模矩阵时，研究团队采用了混合精度计算。核心计算使用16位浮点数以节省内存和提升速度，但关键的累积操作使用32位浮点数以保证精度。这种设计在性能和精度之间找到了很好的平衡点。 八、现实应用与未来展望 虚拟宽度网络技术的潜在应用范围远比表面看起来更广泛。虽然这项技术源于语言模型的优化需求，但其核心思想可以应用到几乎所有需要深度学习的领域。 在自然语言处理领域，虚拟宽度网络最直接的应用是改进大型语言模型的训练效率。现有的语言模型训练需要消耗巨额的计算资源，动辄需要数千台GPU工作数月时间。虚拟宽度技术有望将这个成本降低一半以上，使得更多的研究机构和公司能够承担得起大模型的训练成本。 这种成本降低不仅仅是数量上的改变，更可能带来质量上的突破。当训练成本降低后，研究人员可以进行更多的实验尝试，探索更多的模型架构和训练策略。这种"试错密度"的增加往往会加速技术进步的步伐。 在计算机视觉领域，虚拟宽度网络的应用同样前景广阔。图像识别、目标检测、图像生成等任务都可能从这种技术中受益。特别是在需要处理高分辨率图像或视频的应用中，虚拟宽度网络可能会显著提升处理效率。 多模态AI系统是另一个重要的应用方向。现代AI应用往往需要同时处理文本、图像、音频等多种类型的数据。虚拝宽度网络提供的灵活表示能力可能特别适合这种多模态融合的需求，让系统能够更有效地整合不同模态的信息。 从产业角度来看，虚拟宽度技术可能会改变AI模型的部署模式。目前大型AI模型往往需要部署在昂贵的数据中心，普通企业难以承担。如果虚拟宽度技术能够以更低的资源消耗实现类似性能，那么AI能力的普及可能会大大加速。 当然，这项技术的推广也面临一些挑战。主要的限制来自现有硬件和软件基础设施对标准模型架构的优化。GPU、TPU等AI加速器的设计都基于传统的dense计算模式，虚拟宽度网络的稀疏连接模式可能无法充分利用这些硬件的计算能力。 软件生态系统的适配也是一个挑战。现有的深度学习框架，如PyTorch、TensorFlow等，都针对标准模型架构进行了大量优化。要充分发挥虚拟宽度网络的优势，可能需要对这些框架进行相应的扩展和优化。 研究团队已经开始关注这些工程化挑战。他们正在与硬件厂商合作，探索对虚拟宽度网络更友好的硬件设计。同时，他们也在开发专门的编译器和运行时优化工具，以便在现有硬件上更高效地执行虚拟宽度网络。 从长远来看，虚拟宽度网络可能代表了AI模型设计思路的一次重要转变。传统的"一刀切"式设计正在向"分层定制"的方向演进。未来的AI模型可能会在不同的层次和模块中使用不同的优化策略，形成更加精细和高效的整体架构。 这种设计思路的转变也可能影响AI算法的理论研究。研究人员可能需要重新审视现有的优化理论和复杂度分析框架，将新的设计维度纳入考虑范围。这可能会催生新的理论工具和分析方法。 说到底，虚拟宽度网络的最大价值可能不在于它本身的性能提升，而在于它开启了AI模型优化的新思路。这种思路强调精细化设计、资源配置优化和计算效率提升，这正是AI技术走向实用化和普及化所急需的特质。随着这种设计哲学的推广，我们可能会看到更多创新的模型架构和优化技术涌现，推动整个AI领域的快速发展。 当前，研究团队已经开源了部分实现代码，并计划与学术界和产业界分享更多的技术细节。这种开放的态度有望加速虚拟宽度网络技术的普及和改进。同时，他们也在积极推动相关技术标准的建立，为这项技术的广泛应用奠定基础。 虚拟宽度网络的出现标志着AI模型优化进入了一个新阶段。在这个阶段，简单粗暴的规模扩张正在被精巧的架构创新所取代，昂贵的资源投入正在被智能的设计理念所超越。这种变化不仅会让AI技术变得更加高效，也会让它变得更加可及，最终惠及更广泛的用户群体。 Q&A Q1：虚拟宽度网络与传统AI模型有什么不同？ A：虚拟宽度网络的核心区别在于它将输入处理、核心计算和输出生成的复杂度解耦。传统模型中所有层都使用相同宽度，而虚拟宽度网络保持核心计算层的标准宽度不变，只在输入和输出阶段扩展表示维度。这就像保持城市主干道宽度不变，但在进出口建设更宽敞的集散区域，既提升了处理能力又没有大幅增加计算成本。 Q2：8倍虚拟宽度扩展具体能带来多大的性能提升？ A：根据ByteDance团队的大规模实验，8倍虚拟宽度扩展能让模型在预测下一个词的任务上效率提升2.5倍，在预测下两个词的任务上效率提升3.5倍。这意味着达到相同性能水平只需要原来40%的训练数据。在实际应用测试中，平均准确率提升了2.16个百分点，而计算开销增加微乎其微。 Q3：虚拟宽度网络技术什么时候能在实际产品中使用？ A：目前虚拟宽度网络还主要处于研究验证阶段，要在实际产品中大规模应用还需要克服一些工程化挑战。主要障碍包括现有硬件对标准模型架构的优化、深度学习框架的适配等。研究团队正在与硬件厂商和软件开发者合作解决这些问题，预计在未来1-2年内可能会看到初步的产品化应用。

编辑：宁子