河源防火门专用胶厂家 AMD新论文颠覆认知：FP4训练不稳定，原因不是随机不足

发布日期：2026-05-29 10:51:01 点击次数：151

管件胶编辑｜冷猫

众所周知河源防火门专用胶厂家，大模型训练成本。

但大又知道，降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本到了 560 万美元，已经让全行业侧目。

在 FP8 成功后，行业仍然在不断探索低精度的边界：从 FP8 降到 FP4，训练成本还能再降多少？

理论上，FP4 的计吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运，前者在 B200 上标称 FP4 力可达 4500 TOPS（稀疏）。硬件已经准备好了，但软件和法那侧，直卡在个问题上：

用 FP4 从头训练大模型，训练过程非常不稳定。

过去两年里，LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路，但鲜有案能在 4 比特精度下干净利落地跑通全流程预训练，同时保持接近 FP8 的收敛质量。

棘手的是，崩溃的原因直不清楚，分析认为，FP4 训练不稳定的原因很可能来自随机不足。

但就在近，AMD 联宾夕法尼亚州立大学发布了篇论文，颠覆了传统的认知，为原生 FP4 训练给出了个全新的清晰诊断。

论文标题：Pretraining large language models with MXFP4 on Native FP4 Hardware论文链接：https://arxiv.org/abs/2605.09825

这篇论文在 AMD Instinct MI355X GPU 上，用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练，端到端训练速度比 FP8 基线快 9-10，token 开销仅多 8-9。这是目前个在原生 FP4 硬件（非软件模拟）上完成大模型预训练的完整实验。

重要的是，论文揭示了核心问题：FP4 训练的不稳定的来源不是随机不足，是结构微缩放误差沿敏感梯度路径累积放大。

奥力斯保温护角专用胶批发联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

MXFP4 是什么

在拆解论文之前，有要先理解 MXFP4 这个数据格式。

传统的整数量化通常对整个张量使用个缩放因子。MXFP4 的核心设计叫「微缩放」（Micro-scaling）：把个张量切成小块（比如每 32 个元素组），为每个小块分配个共享指数（E8M0 格式），块内的每个元素用 4 比特浮点数表示。重建公式可以写成：

其中 E_shared 是块内大指数河源防火门专用胶厂家，Q_FP4 是近舍入到 4 比特浮点可表示值。

微缩放的好处在于：每个小块有自己的动态范围，不会被全局异常值「绑架」。这让 4 比特浮点数的表示质量比朴素的全局量化好很多。

但即便有了微缩放，FP4 训练依然不稳定。

排查实验：不稳定的根源

研究团队先设计了个逐步排查的控制实验。

次完整的 Transformer 线层计，涉及三个通用矩阵乘法操作：

Fprop（前向传播）：计 Y = XW^T，产出激活值Dgrad（激活梯度）：计 ∇X = ∇Y · W，将梯度回传给输入Wgrad（权重梯度）：计 ∇W = （∇Y）^T · X，产出用于新权重的梯度

研究团队保持其他所有因素不变，逐步把这三个操作从 FP8 替换成 MXFP4，观察每步对收敛的影响。所有实验都在 AMD Instinct MI355X 上用原生 FP4 tensor core 执行，不依赖软件模拟。

训练任务是 MLPerf 标准设置，在 C4 数据集上预训练 Llama 3.1-8B，收敛目标是验证集困惑度达到 3.3。

前两步只带来了温和的额外 token 开销，但旦把 Wgrad 也换成 MXFP4，开销直接跳到 26-27。

Wgrad 是 FP4 训练的瓶颈所在。前向传播和激活梯度对 FP4 量化有相当的容忍度，但权重梯度旦被量化到 4 比特，收敛质量就出现了显著退化。

业界此前的主流直觉是：FP4 量化误差本质上是噪声问题，因此可以通过注入随机来「平滑」误差分布。两种常见策略是：

随机舍入（Stochastic Rounding）：在量化时引入随机，使舍入误差的期望值为随机 Hadamard 旋转（Randomized Hadamard）：在量化前用带随机符号翻转的 Hadamard 变换散数据分布

当 Wgrad 被量化后，两种随机策略不仅没有稳定训练，万能胶生产厂家反而直接致了不收敛。随机非但没有帮忙，还在关键的梯度路径上引入了多有量化误差。

相比之下，确定 Hadamard 旋转把将全流程 token 开销从 26-27 压回到 8-9，训练轨迹紧密跟踪 FP8 基线。

这是个非常有诊断价值的结果。随机和确定 Hadamard 旋转都是正交变换，都能散异常值的能量分布，理论上对量化误差的缓解果应该类似。但它们在 Wgrad 场景下的表现截然相反，这揭示了问题的本质：

FP4 训练的不稳定，是由 MXFP4 微缩放在敏感梯度路径上产生的结构误差驱动的。随机策略失败是因为它们在每步引入了不同的误差模式（pattern），而这些变化的误差模式沿梯度路径累积，反而放大了不稳定。确定旋转之所以有，恰恰因为它在每步施加相同的变换，让误差模式保持致，避了误差累积。

端到端率：训练步吞吐 +20，综加速 9-10

把确定 Hadamard 旋转加上全流程 MXFP4 之后，率数据如下：

训练步吞吐提升了 20，扣掉多出的 8-9 token 开销之后，端到端综加速仍有9-10。

考虑到这是把精度从 8 比特直接到 4 比特，这个收敛质量和加速幅度都相当可观。

左图：在 C4 数据集上进行 MLPerf 预训练时，Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示，MXFP4 + 确定 Hadamard 与 FP8 的表现非常接近，而未进行稳定化处理的全流程 MXFP4 收敛速度慢，训练稳定也差。右图：训练后期的局部放大视图。MLPerf 的目标困惑度为 3.3。与未稳定化的 MXFP4 运行相比，确定 Hadamard（H16）能够与 FP8 基线保持紧密的致。

值得注意的是，作者在论文中明确强调了项重要限制：这套 FP4 训练案（MLPerf C4 数据集 + Llama 3.1-8B）的果已经得到验证，但不能直接假设它能缝迁移到所有模型、所有数据集和所有训练法。FP4 训练的行为可能是度设置依赖的，具体的稳定策略需要根据场景重新验证。

结语

把这篇论文放到大的产业脉络里，至少有三层意义。

层：它回答了个根本的「为什么」。过去的 FP4 训练工作大多聚焦于「怎么让它不崩」，这篇论文次给出了清晰的因果诊断：崩溃源于 Wgrad 路径上的结构微缩放误差，而非随机不足。这个诊断本身就具有法论价值，它告诉后续研究者：在低精度训练中遇到不稳定时，应该优先排查结构误差源，而非盲目增加随机。

二层：它把 FP4 从「理属」向了「训练可用」。此前行业共识是 FP4 只适理量化，训练至少要用 FP8。NVIDIA 在 Blackwell 上主 FP4 理而非训练，也反映了这判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练，意味着 MI355X 和 Blackwell 上那些为理准备的 FP4 力，理论上也可以用来训练。如果 FP4 训练在大模型和多场景上被验证可行，等于现有硬件的可用训练力直接翻倍。

三层：它使用了 OCP 开放标准。MXFP4 是 OCP Microscaling 格式标准的部分，背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七公司联支持。基于开放标准意味着这套法在不同厂商的硬件上都有可移植，不会被锁定在单生态里。

从 FP16 到 FP8，DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4，这篇论文迈出了关键的步。精度每刀，整个大模型训练的经济都在发生转变。

相关词条:罐体保温施工异型材设备锚索玻璃棉保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》河源防火门专用胶厂家，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：重庆橡塑专用胶价格吴磊海南40℃骑行80公里，皮肤晒出“巧克力渐变”，网友：晒霜白涂了
下一篇：上饶家具封边胶莫雷托：米兰董事会成员卡尔维利将获大权力，是老板的亲密助手

河源防火门专用胶厂家 AMD新论文颠覆认知：FP4训练不稳定，原因不是随机不足

最新资讯

推荐资讯

友情链接：