12月12日,螞蟻技術研究院宣布推出LLaDA2.0系列離散擴散大語言模型(dLLM),并公開了背后的技術報告。LLaDA2.0包含16B(mini)和100B(flash)兩個版本,將Diffusion模型的參數(shù)規(guī)模首次擴展到了100B量級。該模型不僅打破了擴散模型難以擴展的固有印象,更在代碼、數(shù)學和智能體任務上展現(xiàn)出了超越同級自回歸(AR)模型的性能。
LLaDA2.0通過創(chuàng)新的Warmup-Stable-Decay(WSD)持續(xù)預訓練策略,能夠無縫繼承現(xiàn)有AR模型的知識,避免了從頭訓練的高昂成本。結合置信度感知并行訓練(CAP)和擴散模型版DPO,LLaDA2.0在保證生成質量的同時,利用擴散模型的并行解碼優(yōu)勢,實現(xiàn)了相比AR模型2.1倍的推理加速。螞蟻技術研究院在多個維度對模型進行了評估,結果顯示LLaDA2.0在結構化生成任務(如代碼)上具有顯著優(yōu)勢,并在其他領域與開源AR模型持平。
LLaDA2.0的模型權重(16B/100B)及相關訓練代碼已在Huggingface開源。

來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內容并不代表第一電動網(wǎng)(m.vlxuusu.cn)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權請聯(lián)系郵件刪除。