而然,调数据量相对较幼时当分散不敷类似且微,情景下正在某些,出不显然的非缺乏举动BLEU 得分会显示,遵从幂律缺乏地普及而下游的交叉熵仍会。结果证据这一观望,磨练数据与下游使命的「合联性」或下游目的功能所需的预磨练数据巨细假使将交叉熵行动 BLEU 得分等使命合联目标的代替目标来断定预,导致告急的误判正在实行中或许会。
论也实用于图 2 中的结果大局限从图 1 中得出的结。如例,集足够大时当微调数据,的要紧性较幼预磨练数据。使命(中央一栏)的 BLEU 得分一个明显的区别正在于英 - 法翻译。者展现琢磨, 和 D_f = 210M看待 D_f = 42M,巨细领先一个阈值一朝预磨练数据集,ing Law 现实上会断裂BLEU 得分的 Scal,如预期那样缩放而交叉熵牺牲则。反直觉的这是违,的预磨练数据集由于看待更大,分有时会消重BLEU 得。意注, - 罗翻译使命中正在英 - 德或英,Law 的断裂并未发作这种 Scaling ,w 很好地符合了预磨练数据由于 Scaling La,.025(δ = 0.1))这些使命的预测差错最多为 0。
(左侧)正在图 3,供了 Scaling Law琢磨者为英 - 德翻译使命提,1-(左侧)类似)、100% 德文 - MC4、100% 法文 - MC4(对齐度较低)和 100% 罗马尼亚文 - MC4(对齐度较低)此中预磨练数据集征求 100% 英文 - MC4(与图 2-(左侧)类似)、50% 英文 - MC4 和 50% 德文 - MC4(与图 。意注,期与翻译使命的对齐度最低末了两个预磨练数据集预,征求这些措辞由于翻译对不。看到可能,如许假使,用于 BLEU 得分和交叉熵牺牲Scaling Law 永远适。
Law 拟合得很好假使 Scaling,多方法)时对 BLEU 分数举办开始预测就可能正在扩张预磨练数据集范畴(或预磨练更。
aw 正在任何一点上被打垮假使 Scaling L,集与下游使命的完婚水平不敷就会得出结论:预磨练数据,能不会有任何长处进一步预磨练可。
循一个缺乏递减的趋向固然交叉熵牺牲老是遵,Scaling Law 来取得这可能通过公式 (2) 中的 。练数据集巨细时但当扩张预训,得分的缺乏扩张(见图 2(上咱们并不总能看到 BLEU , 3(上中)和图,))右。观望到琢磨者,生 —— 这导致与正在其他数据集上预磨练的模子比拟这种情景只正在预磨练数据集与翻译使命对齐度亏折时发,BLEU 得分较低这类模子总体上 。EU 得分的预磨练模子看待微调后导致高 BL,U 得分缺乏扩张总能看到 BLE,的 Scaling Law 来描绘而且可能很好地用公式 (1) 中。此因,否拟合实证 BLEU 得分Scaling Law 能,翻译)使命价格的一个好的开始检验可能行动评估预磨练数据对下游(。
情景下正在总共,好地符合了实证结果(图中象征)Scaling Law 都很。期的那样正如预,巨细的扩张(比如跟着微调数据集, - 实线的规律)按点线 - 虚线, 得分扩张BLEU,滑且缺乏地裁减交叉熵牺牲平。样同,_p 的扩张(沿 x 轴)跟着预磨练数据集巨细 D,目标都有所改进可能看到两个。
发实际验,类似的情景下正在分散齐备,练的扩张跟着预训,叉熵都市缺乏地普及BLEU 和下游交。情景下正在这些,以用以下对数定律很好地预测实践证实 BLEU 得分可:
LEU 得分从实证角度举办了斗劲琢磨者还将下游交叉熵牺牲和 B,牺牲是模子下游使命功能的一个好目标由于先前的处事假设上游或下游交叉熵。上游交叉熵牺牲的缩放举动的长远清楚根据对预磨练数据集范畴的函数中的, Law 也可能描绘下游交叉熵牺牲琢磨者呈现了同样的 Scaling,下如:
LEU 得分不顺心假使对预测的 B,对该数据集举办预磨练就会得出结论:不值得。EU 分数足够高假使预测的 BL,续预磨练那么就继,BLEU 得分直来到到目的 。
Scaling Law 的存正在大模子的告捷很大水平上要归因于,范畴、模子架构等安排因素之间的相合这必定律量化了模子功能与磨练数据,适的磨练数据供给了珍贵的诱导为模子斥地、资源分派和选拔合。
上对 LLM 举办了预磨练琢磨者正在多措辞无监视数据集,使命中对其举办微调然后正在多个呆板翻译。实践中正在全盘,下游使命的分散类似水平)和微调数据的范畴琢磨者改换了预磨练数据的类型(以操纵与。
1 中正在图 ,的数据集上预磨练的模子琢磨者领会了正在区别比例,+ 50% 法文 - MC4 的混杂体以及(右)50% 英文 - MC4 + 50% 罗马尼亚文 - MC4 的混杂体这些数据集征求(左)50% 英文 - MC4 + 50% 德文 - MC4 的混杂体、(中)50% 英文 - MC4 。后然,翻译数据集和(右)英 - 罗翻译数据集的区别局限前进行微调这些模子阔别正在(左)英 - 德翻译数据集、(中)英 - 法。
味着这意,些使命看待这,集足够大时当微调数据,行模子预磨练没有须要进。的是红运,aw 精确预测是否会产生这种情景咱们可能操纵 Scaling L,局限上以合理的盘算本钱预磨练模子必要做的即是正在预磨练数据集的一幼,ng Law 的系数以优化 Scali,.4 节供给的指南然后根据论文第 3。
EU 得分等权衡使命合联的目标使命功能指的是凿凿率和 BL,一个 token 预测目标这些目标区别于交叉熵等下。呆板翻译使命琢磨者聚焦于,务微调后下游使命功能之间的相合实在协商了预磨练数据集巨细与任,幼和功能目标的选拔表展现除了微调数据大,练数据和下游使命之间的类似性这种相合从根底上取决于预训。不怜悯况下也有形似的观望结果固然转移进修方面的诸多处事正在,的见识和实在的 Scaling Law但本文为 LLM 的下游功能供给了新。
戒备到可能,于较幼的微调数据集更有用扩张预磨练数据集巨细对。足够大时(比如当微调数据集,线)实,据集巨细怎样非论预磨练数,或多或少连结恒定BLEU 得分。际上实,集足够大时当微调数据,模子(黑线)比拟与未经预磨练的,练简直没有改进可能看到预训。
得分缩放显示的琢磨结果连合上述对 BLEU ,了两条指南琢磨者给出,对目的下游使命的价格用于评估预磨练数据集:
2 中正在图 ,改为 100% 英文 - MC4琢磨者将总共图中的预磨练数据集更。观上直,1 中的「多措辞对」比起来他们预期这个数据集与图 ,的对齐度较低与翻译使命,使命中的一种措辞由于它不征求翻译大模型Scaling Law同样适用于。确的,调数据集巨细的情景下咱们往往看到类似微, 得分更低BLEU,牺牲更高交叉熵。
β 为拟合系数此中 A、α 和。戒备到琢磨者,(从措辞 1 翻译到措辞 2)的对齐水平这些系数取决于预磨练数据集与下游目的使命,)数据集的范畴以及微调(翻译。措辞预磨练模子的多量实践通过对多个翻译使命和多,很好地描绘了 BLEU 得分的缩放琢磨者证实 (1) 中的定律确实太平洋在线xg111差错较幼并且预测。
caling law(即正在预磨练数据前进行评估)以往的多量琢磨集合于上游纷乱度或交叉熵牺牲的 S,际运用中但正在实,程:开始正在无监视数据前进行预磨练模子往往要经验一个转移进修的过,(如编码或翻译)举办微调然后针对特定的下游使命。
么那,使命功能?这个环节题目很大水平上仍未获得解答Scaling Law 能不行用于预测下游。一项处事中正在近来的,移进修的 Scaling Law斯坦福大学和谷歌的琢磨者摸索了迁。
BLEU 得分第一行记实了 ,下游交叉熵牺牲第二行记实了。_f 的 Scaling Law点线)中区别微调数据集巨细 D。练」的模子(随机初始化)玄色线条对应「未经预训,集的区别局限前进行磨练这些模子直接正在微调数据。
还戒备到琢磨者,的预磨练数据集合正在这三个缩放断裂, 得分最低BLEU。证据这,希望带来优良的功能只须预磨练数据集,aw 看待 BLEU 得分就实用得很好公式 (1) 中的 Scaling L。而然,Law 实用得欠好时当 Scaling ,LEU 得分总体上较低琢磨者或许会疑忌 B。此因, 彷佛能很好地指示预磨练数据与特定翻译使命之间的对齐水平是否也许符合 BLEU 得分的 Scaling Law。
的交叉熵和疑惑度区别与根据幂律缩放举动,切近于对数律(log-law)琢磨者展现 BLEU 得分更,和图 3 中显而易见这从图 1、图 2 。此因,的函数的 BLEU 得分的 Scaling Law琢磨者提出以下公式行动预磨练数据集巨细 D_p :
定律有三个系数必要拟合2、因为 (1) 中的,token 数、BLEU 得分)因而一朝有了三对(看到的预磨练 ,到最佳系数就会考试找。
而然,翻译使命看待英法,老是如许情景并非。-(右侧)正在图 3,了 Scaling Law琢磨者为英法翻译使命供给,和法文 - MC4 数据集的区别混杂此中预磨练数据集是英文 - MC4 。较低」的预磨练数据集他们还征求了「对齐度, 100% 罗马尼亚文 - MC4如 100% 德文 - MC4 和。讶的是令人惊,- MC4)和仅罗马尼亚文(100% 罗马尼亚文 - MC4)的预磨练数据集可能看到看待仅英文(100% 英文 - MC4)、仅德文(100% 德文 ,ng Law 正在某一点后断裂BLEU 得分的 Scali下游任务性能?斯坦福、谷歌最新研究揭秘,) 中的 Scaling Law而交叉熵牺牲老是根据公式 (2。的是趣味,分缩放的断裂 —— 这示意正在预磨练中不征求法文数据会导致英法翻译使命中的缩放功能消重琢磨者没有正在仅法文(100% 法文 - MC4)的预磨练数据集合观望到 BLEU 得,则没有这种影响但不征求英文。
证琢磨证据末了的实,据集仍旧足够大时当微调(转移)数, 得分简直没有改进预磨练对 BLEU。
示预磨练数据的巨细此中 D_p 表,是要拟合的系数A、α、β 。数据的扩张跟着预磨练,了下游交叉熵的幂琢磨者进一步提出律
α 是必要优化的系数此中 E、A 和 。论文中正在整篇,分和交叉熵放正在一齐呈文琢磨者将 BLEU 得,直接斗劲以便举办,些情景下展现正在一,合联性并欠好这两个目标的。 al. (2021) 的少少展现这援帮了 Ghorbani et,和交叉熵之间不类似即 BLEU 得分, 所提出的(两个目标之间的)指数相合并不老是树立的但也证据 Gordon et al. (2021)。体地说更具,证结果证据本文的实,据集范畴的扩张跟着预磨练数,减(正在适合的进修率下)交叉熵牺牲老是缺乏递,与使命不敷类似时而当预磨练数据,能会体现非缺乏趋向BLEU 得分可。
交叉熵之间的不完婚举办了 remotely related 观望McKenzie et al. (2023) 对使命合联目标与,何跟着模子的伸长而转移琢磨了下游使命功能如,范畴的扩张而显示出更差的使命功能结果证据 LLM 或许会跟着模子,结果形似的是但与本文琢磨,失并未响应出这一点缺乏递减的交叉熵损。
及「下游交叉熵随微调数据集巨细转移而转移的形似次序」千篇一律这与「上游交叉熵随预磨练数据集巨细转移而转移」的形似次序以。
预磨练数据集1、给定一个,下尽或许长功夫地举办预磨练正在给定的盘算和功夫限度要求。磨练检验点按期选拔预,行微调对其进,据第 3.3 节的协商并记实下游功能目标(根,EU 得分而非交叉熵)琢磨者举荐操纵 BL。
考核这一点为了更好地,3 中正在图 ,择而对齐度较低的少少预磨练数据集琢磨者更当心地琢磨了因为措辞选:
得分拥有非缺乏显示假使 BLEU ,aling Law就无法拟合 Sc。象(按照第 3.3 节中的协商)因为非缺乏举动或许是错误齐的迹,调检验点的 BLEU 得分琢磨者发起检验可用的最佳微,的非预磨练模子的功能举办斗劲并将其与直接不才游使命中磨练。
如例,(右上)中正在图 3,有时会低重 WMT-15 英法(en-fr)翻译使命的 BLEU 得分扩张 en-MC4、de-MC4 或 ro-MC4 预磨练数据集的巨细。预磨练数据集来说假使看待较幼的,循(1)中的次序它们最初或许遵,据集和使命来说但看待这些数,越大数据,Law 就会打垮Scaling 。而言总体,语的预磨练数据集比拟与其他包括必定量法,未抵达一个很好的值BLEU 得分从,与这一特定翻译使命的完婚度不敷这证据不包括法语的预磨练数据集。是但,下)中的交叉熵牺牲假使只看图 3(右,据集都市给模子带来彰着的修正就会得出结论:总共预磨练数,到预磨练数据中它们都值得增加,个纰谬的断定而这会是一。