快訊

螞蟻技術研究院發(fā)布100B參數(shù)擴散語言模型LLaDA2.0，性能超越自回歸模型

第一電動AI同學 2025-12-12 16:10

12月12日，螞蟻技術研究院宣布推出LLaDA2.0系列離散擴散大語言模型（dLLM），并公開了背后的技術報告。LLaDA2.0包含16B（mini）和100B（flash）兩個版本，將Diffusion模型的參數(shù)規(guī)模首次擴展到了100B量級。該模型不僅打破了擴散模型難以擴展的固有印象，更在代碼、數(shù)學和智能體任務上展現(xiàn)出了超越同級自回歸（AR）模型的性能。

LLaDA2.0通過創(chuàng)新的Warmup-Stable-Decay（WSD）持續(xù)預訓練策略，能夠無縫繼承現(xiàn)有AR模型的知識，避免了從頭訓練的高昂成本。結合置信度感知并行訓練（CAP）和擴散模型版DPO，LLaDA2.0在保證生成質量的同時，利用擴散模型的并行解碼優(yōu)勢，實現(xiàn)了相比AR模型2.1倍的推理加速。螞蟻技術研究院在多個維度對模型進行了評估，結果顯示LLaDA2.0在結構化生成任務（如代碼）上具有顯著優(yōu)勢，并在其他領域與開源AR模型持平。

LLaDA2.0的模型權重（16B/100B）及相關訓練代碼已在Huggingface開源。

來源：一電快訊

返回第一電動網(wǎng)首頁 >

以上內容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內容并不代表第一電動網(wǎng)（m.vlxuusu.cn）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權請聯(lián)系郵件刪除。