
众所周知河源防火门专用胶厂家,大模型训练成本。
但大又知道,降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本到了 560 万美元,已经让全行业侧目。
在 FP8 成功后,行业仍然在不断探索低精度的边界:从 FP8 降到 FP4,训练成本还能再降多少?
理论上,FP4 的计吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运,前者在 B200 上标称 FP4 力可达 4500 TOPS(稀疏)。硬件已经准备好了,但软件和法那侧,直卡在个问题上:
用 FP4 从头训练大模型,训练过程非常不稳定。
过去两年里,LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路,但鲜有案能在 4 比特精度下干净利落地跑通全流程预训练,同时保持接近 FP8 的收敛质量。
棘手的是,崩溃的原因直不清楚,分析认为,FP4 训练不稳定的原因很可能来自随机不足。
但就在近,AMD 联宾夕法尼亚州立大学发布了篇论文,颠覆了传统的认知,为原生 FP4 训练给出了个全新的清晰诊断。
论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware论文链接:https://arxiv.org/abs/2605.09825
这篇论文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练,端到端训练速度比 FP8 基线快 9-10,token 开销仅多 8-9。这是目前个在原生 FP4 硬件(非软件模拟)上完成大模型预训练的完整实验。
重要的是,论文揭示了核心问题:FP4 训练的不稳定的来源不是随机不足,是结构微缩放误差沿敏感梯度路径累积放大。
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
在拆解论文之前,有要先理解 MXFP4 这个数据格式。
传统的整数量化通常对整个张量使用个缩放因子。MXFP4 的核心设计叫「微缩放」(Micro-scaling):把个张量切成小块(比如每 32 个元素组),为每个小块分配个共享指数(E8M0 格式),块内的每个元素用 4 比特浮点数表示。重建公式可以写成:
其中 E_shared 是块内大指数河源防火门专用胶厂家,Q_FP4 是近舍入到 4 比特浮点可表示值。
微缩放的好处在于:每个小块有自己的动态范围,不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。
但即便有了微缩放,FP4 训练依然不稳定。
研究团队先设计了个逐步排查的控制实验。
次完整的 Transformer 线层计,涉及三个通用矩阵乘法操作:
Fprop(前向传播):计 Y = XW^T,产出激活值Dgrad(激活梯度):计 ∇X = ∇Y · W,将梯度回传给输入Wgrad(权重梯度):计 ∇W = (∇Y)^T · X,产出用于新权重的梯度
研究团队保持其他所有因素不变,逐步把这三个操作从 FP8 替换成 MXFP4,观察每步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行,不依赖软件模拟。
训练任务是 MLPerf 标准设置,在 C4 数据集上预训练 Llama 3.1-8B,收敛目标是验证集困惑度达到 3.3。
前两步只带来了温和的额外 token 开销,但旦把 Wgrad 也换成 MXFP4,开销直接跳到 26-27。
Wgrad 是 FP4 训练的瓶颈所在。前向传播和激活梯度对 FP4 量化有相当的容忍度,但权重梯度旦被量化到 4 比特,收敛质量就出现了显著退化。
业界此前的主流直觉是:FP4 量化误差本质上是噪声问题,因此可以通过注入随机来「平滑」误差分布。两种常见策略是:
随机舍入(Stochastic Rounding):在量化时引入随机,使舍入误差的期望值为随机 Hadamard 旋转(Randomized Hadamard):在量化前用带随机符号翻转的 Hadamard 变换散数据分布
当 Wgrad 被量化后,两种随机策略不仅没有稳定训练,万能胶生产厂家反而直接致了不收敛。随机非但没有帮忙,还在关键的梯度路径上引入了多有量化误差。
相比之下,确定 Hadamard 旋转把将全流程 token 开销从 26-27 压回到 8-9,训练轨迹紧密跟踪 FP8 基线。
这是个非常有诊断价值的结果。随机和确定 Hadamard 旋转都是正交变换,都能散异常值的能量分布,理论上对量化误差的缓解果应该类似。但它们在 Wgrad 场景下的表现截然相反,这揭示了问题的本质:
FP4 训练的不稳定,是由 MXFP4 微缩放在敏感梯度路径上产生的结构误差驱动的。随机策略失败是因为它们在每步引入了不同的误差模式(pattern),而这些变化的误差模式沿梯度路径累积,反而放大了不稳定。确定旋转之所以有,恰恰因为它在每步施加相同的变换,让误差模式保持致,避了误差累积。
把确定 Hadamard 旋转加上全流程 MXFP4 之后,率数据如下:
训练步吞吐提升了 20,扣掉多出的 8-9 token 开销之后,端到端综加速仍有9-10。
考虑到这是把精度从 8 比特直接到 4 比特,这个收敛质量和加速幅度都相当可观。
左图:在 C4 数据集上进行 MLPerf 预训练时,Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示,MXFP4 + 确定 Hadamard 与 FP8 的表现非常接近,而未进行稳定化处理的全流程 MXFP4 收敛速度慢,训练稳定也差。右图:训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比,确定 Hadamard(H16)能够与 FP8 基线保持紧密的致。
值得注意的是,作者在论文中明确强调了项重要限制:这套 FP4 训练案(MLPerf C4 数据集 + Llama 3.1-8B)的果已经得到验证,但不能直接假设它能缝迁移到所有模型、所有数据集和所有训练法。FP4 训练的行为可能是度设置依赖的,具体的稳定策略需要根据场景重新验证。
把这篇论文放到大的产业脉络里,至少有三层意义。
层:它回答了个根本的「为什么」。过去的 FP4 训练工作大多聚焦于「怎么让它不崩」,这篇论文次给出了清晰的因果诊断:崩溃源于 Wgrad 路径上的结构微缩放误差,而非随机不足。这个诊断本身就具有法论价值,它告诉后续研究者:在低精度训练中遇到不稳定时,应该优先排查结构误差源,而非盲目增加随机。
二层:它把 FP4 从「理属」向了「训练可用」。此前行业共识是 FP4 只适理量化,训练至少要用 FP8。NVIDIA 在 Blackwell 上主 FP4 理而非训练,也反映了这判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练,意味着 MI355X 和 Blackwell 上那些为理准备的 FP4 力,理论上也可以用来训练。如果 FP4 训练在大模型和多场景上被验证可行,等于现有硬件的可用训练力直接翻倍。
三层:它使用了 OCP 开放标准。MXFP4 是 OCP Microscaling 格式标准的部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七公司联支持。基于开放标准意味着这套法在不同厂商的硬件上都有可移植,不会被锁定在单生态里。
从 FP16 到 FP8,DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4,这篇论文迈出了关键的步。精度每刀,整个大模型训练的经济都在发生转变。
相关词条:罐体保温施工 异型材设备 锚索 玻璃棉 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》河源防火门专用胶厂家,以此来变相勒索商家索要赔偿的违法恶意行为。




