情色 调教 谷歌团队再次讲解Scaling Law的准确性,仍能卓越数据并行稽察
Scaling Law 由 OpenAI 团队于 2020 年厚爱提议,并在其论文《神经讲话模子的扩张定律》(Scaling Laws for Neural Language Models)中进行了扫视答复。Scaling Law 揭示了模子性能与模子范围、数据量和规画资源之间的数学关系。但在这两年情色 调教,由于本色应用局限性、表面解释不完善等原因,Scaling Law 遭到了一些质疑。而 Google 旗下两支团队的最新计议,似乎又给 Scaling Law 投上了一张营救票。
在大模子鸿沟,数据并行稽察(Data-Parallel)次第占据着中枢肠位,它是稽察大模子的基础本事之一。关联词,跟着模子范围的束缚增大,数据并行稽察次第的通讯支出和内存落幕等舛误日益突显。
为此,Google DeepMind 此前研发出一种名为 DiLoCo(散播式低通讯优化,Distributed Low-Communication Optimization)的次第,其具备减少通讯支出和擢升扩张性等上风。
近日,来自 Google Research 和 Google DeepMind 的计议东说念主员发现 DiLoCo 果然具备更多上风。
计议中,他们计议了在固定规画预算之下稽察大模子时 DiLoCo 的 Scaling Law 活动,借此揭示了 DiLoCo 一系列更通用的优点:包括其省略增多最好 batch 大小、省略提陡立游范围的泛化能力、省略在固定 token 预算之下改善评估归天。(注:评估归天,是指模子在考据集或测试集上规画出的归天值。)
计议东说念主员发现跟着模子尺寸的增大,DiLoCo 会呈现出可猜测的肃穆扩张。若是转念稳健,DiLoCo 的模子范围扩张性优于数据并行稽察次第,即使在小模子范围下 DiLoCo 也能胜过数据并行稽察次第。


而本次计议中,基于关连数据计议东说念主员为数据并行稽察次第和 DiLoCo 离别种植了评估损结怨最优超参数的 Scaling Law。
借此讲解,当 Scaling Law 扩张到更大的模子范围时,其具备更好的评估损结怨最优超参数。
令东说念主十分诧异的是:许厚情况下关于疏导的 token 预算,在通讯遵守更高的 DiLoCo 上,这些 Scaling Law 猜测会比数据并行稽察次第产生更低的评估归天。
自拍为了应用计议东说念主员的 Scaling Law 来猜测 DiLoCo 的超参数,他们离别在稽察具有 40 亿参数和 100 亿参数的模子时加以测试。
事实讲解,Scaling Law 是准确的。即使总通讯量减少 99% 以上,DiLoCo 的发扬也能优于数据并行稽察。
关于计议中的每个践诺,在不同带宽和不同蔓延的收集下,计议东说念主员齐能已矣理思的端到端 wall-clock 稽察时刻。(注:wall-clock time,指的是从任务开动到收尾所资格的本色时刻,包括所有这个词恭候时刻和规画时刻。)
计议东说念主员的践诺包括 M = 1 的 DiLoCo(即仅使用单个副本)。而在这些数据中一个令东说念主诧异的气候是:即使莫得通讯瓶颈,DiLoCo 也能纠正稽察遵守。
由于 DiLoCo 本色上是另一种优化算法 Lookahead optimizer 的增强版块,因此它不会导致任何通讯的减少。
关联词,通过使用低频动量操作,无论在奈何的模子范围下,DiLoCo 在评估损树愤激更大 batch 的容忍度上,齐要优于数据并行稽察次第。
值得预防的是,M=1 的 DiLoCo 在评估损结怨稽察时刻方面齐优于数据并行稽察次第。
计议东说念主员发现,M=1 的 DiLoCo 在所有这个词模子范例上齐能已矣较低的评估归天,况兼能对更大的 batch 产生更好的鲁棒性,从而省略大大减少 wall-clock 稽察时刻。
计议中,计议东说念主员离别通过数据并行稽察次第和 DiLoCo 来开展模子稽察。
在数据并行稽察次第中,在每一步计议东说念主员齐会得回一个 batch 大小为 B 的数据。
然后,计议东说念主员规画批次梯度(batch gradient),并使用学习率 γ 进行优化。
在比较数据并行次第和 DiLoCo 时情色 调教,计议东说念主员恒久确保模子大小 N 和总 token 预算 D 保抓疏导。
为了规画某些留出集的评估归天 L,针对数据并行次第计议东说念主员使用现时模子,针对 DiLoCo 计议东说念主员使用最新的全局模子。(注:留出集,是指从原始数据辘集有利保留的一部分数据,用于评估模子的泛化性能。)

在具体的践诺次第上,计议东说念主员使用 Chinchilla-style 的仅解码器 Transformer 架构。
同期,使用 QKLayerNorm 来裁减关于学习率的敏锐性。需要阐发的是,QKLayerNorm 是一种纠正的层归一化本事,主要用于 Transformer 架构中的自预防力机制。另外,计议东说念主员还使用 z 归天正则化来擢升稽察踏实性。
本次计议使用的词汇量为 32,768:其中有 32,000 个词汇表内的单词,另外还有一些罕见的标记用于示意句子来源和词汇表外的内容。
践诺中,计议东说念主员将多个序列打包到每个 batch 中,所有这个词这个词 batch 的最大序列长度为 2048。
这时,计议东说念主员开动针对一系列的模子进行稽察,这些模子的 transformer 层数、预防力头数目、QKV 维度和前馈层荫庇维度各不疏导。
其中,QKV 维度是指查询(Query)、键(Key)和值(Value)向量的维度。这些向量是自预防力机制的中枢构成部分,用于规画输入序列中不同位置之间的关系。

在大多数践诺中,计议东说念主员全程使用 C4 数据集的稽察集来稽察模子。
此外,还规画了 3 项任务的下贱零样本评估缱绻:HellaSwag、Piqa 和 Arc-Easy。在进行过度稽察消融时,使用了 Dolma 数据集。
其还使用了一个纠正版的 NanoDO,它应用 DrJAX 在副本之间并行化里面稽察法子,并将模子副本轴暴败露来以便进行显式编程。这关于 JAX 中更好的扩张性能至关弥留,因为 DrJAX 提供了 jax.vmap 的丰富版块,省略提供相关 DiLoCo 副本的更明确的分片信息。
与此同期,计议东说念主员使用 all-reduce 进行外部优化。all-reduce 是一种散播式规画中的通讯操作,用于在多个 GPU 或多个 TPU 之间高效地团员数据。
计议中,其恒久使用 bfloat16 来示意模子权重和梯度。bfloat16 是一种 16 位浮点数样子,它由 Google 团队开垦,它在保留 32 位浮点数动态范围的同期,省略减少存储和规画支出。
计议东说念主员在谷歌张量解决单位 TPUv5e 和 TPUv6e 上进行了大部分践诺,并在 TPUv-5 上进行了最大范围的践诺。
关于每个践诺,其还规画了一个理思化的 wall-clock 稽察时刻,并在这一时刻中探求了理思化的规画时刻和通讯时刻。同期,其还专门测量了端到端的 wall-clock 时刻。
其发现,更大的水平并行化举例通过将 batch 大小加倍,将省略减少 wall-clock 时刻。
践诺中,计议东说念主员假定其模子正在跨多个数据中心开展稽察。当在数据中心之内的时候,省略领有一个高带宽收集。当跨数据中心的时候,则离别领有高带宽、中带宽或低带宽的收集。
当通讯时刻处于理思现象的时候,计议东说念主员恒久将高带宽收集用于数据中心内的收集,以及将三种收集合的自便一种用于跨数据中心收集。

应用关连数据,计议东说念主员推导出了 Scaling Law,从而省略猜测较大模子的评估损结怨最优超参数。
凭证 Chinchilla Scaling Law,计议东说念主员假定最优 token 预算由 D=20N 给出。
这意味着在模子大小固定的情况下,若是将 batch 大小 B 加倍,则稽察法子的数目将会减半。
践诺中,计议东说念主员通过使用 Scaling Law 缔造的超参数来稽察 4B 和 10B 模子来考据上述不雅点。
尽管下图展示的是“插值”区域的情况,同期这亦然多数扫描的落幕,但是这些发现从定性角度来看,相通适用于“外推”区域。这使得计议东说念主员在 M = 1、2 时,省略使用 DiLoCo 将 40 亿参数和 100 亿参数目的模子稽察得领有更低的评估归天。

落幕夸耀,DiLoCo 省略已矣更当然的水平扩张性。无论在职何情况,token 预算 D 只是是 N 的函数。
这意味着当使用 4 倍大的 batch 时,稽察法子省略减少到蓝本的 1/4。
关于 DiLoCo 来说,这会产生尽头好的性能,况兼不错同期使用更多资源,从而减少模子总稽察时刻。
比较之下,数据并行稽察次第似乎需要更多的串行稽察。因为,稽察时刻的减少与通讯的减少是相反相成的。
为了展示这些遵守,计议东说念主员不才图中绘画了在不同带宽的收集下稽察时的理思化 wall-clock 时刻。

借此发现,DiLoCo 对更大 batch 的容忍度使其省略更快地已矣与数据并行次第约莫尽头的损耗。
不才图中,计议东说念主员绘画了不同过度稽察量下数据并行次第和 DiLoCo 的理思稽察时刻(M = 2)。

其发现,DiLoCo 省略通过裁减通讯本钱和应用更大的 batch 来加快过度稽察,因此需要的串行稽察法子更少。
这标明 DiLoCo 关于过稽察来说是一个强大的福祉,因为这意味着不错通过横向可扩张性来摊销规画时刻。(注:过稽察,是指模子在稽察经由中过度拟合稽察数据,导致其在未见数据上的性能着落。)
与此同期,计议东说念主员的落幕标明,DiLoCo 和数据并行稽察这两种次第往往齐是有用的,尽管莫得明确的赢家,但是 M 之间的残差存在显赫各异。
尽管如斯,计议东说念主员发现平均而言,固然独处拟合在猜测损结怨全局批量大小方面略优于集合拟合,但独处拟合在猜测里面学习率方面要彰着好得多。
总的来说,本次落幕标明与数据并行次第一样,DiLoCo 不错跟着模子大小的变化已矣可猜测的扩张,这使得在极大的范例上转念超参数和稽察模子变得愈加简短。
此外,DiLoCo 比较数据并行次第不错带来显赫上风,包括:使用单个模子副本时具备更优的评估归天,在职何模子副本数目下最优 batch 大小齐能增大。关于模子范围、过稽察和同步频率来说,这将产生更好的鲁棒性。
不外,脚下明显需要可用于大范围部署 DiLoCo 等次第的系统和软件,并能在简直的超大模子环境中已矣其通讯遵守上风。
参考而已:
https://arxiv.org/pdf/2503.09799
排版:初嘉实