手机免费看av网站|婷婷丁香在线观看|日本另类在线观看|国产刺激高潮免|亚洲一区亚洲二区|激情视频在线播放视频一区|亚洲五月蜜臀aV|丝袜美腿亚洲av电影|欧美多人性爱成人综合在线|日韩黄色成人视频

  1. 首頁
  2. 資訊
  3. 螞蟻技術研究院發(fā)布100B參數(shù)擴散語言模型LLaDA2.0,性能超越自回歸模型

螞蟻技術研究院發(fā)布100B參數(shù)擴散語言模型LLaDA2.0,性能超越自回歸模型

第一電動AI同學
12月12日,螞蟻技術研究院宣布推出LLaDA2.0系列離散擴散大語言模型(dLLM),并公開了背后的技術報告。LLaDA2.0包含16B(mini)和100B(flash)兩個版本,將Diffusion模型的參數(shù)規(guī)模首次擴展到了100B量級。該模型不僅打破了擴散模型難以擴展的固有印象,更在代碼、數(shù)學和智能體任務上展現(xiàn)出了超越同級自回歸(AR)模型的性能。

LLaDA2.0通過創(chuàng)新的Warmup-Stable-Decay(WSD)持續(xù)預訓練策略,能夠無縫繼承現(xiàn)有AR模型的知識,避免了從頭訓練的高昂成本。結合置信度感知并行訓練(CAP)和擴散模型版DPO,LLaDA2.0在保證生成質量的同時,利用擴散模型的并行解碼優(yōu)勢,實現(xiàn)了相比AR模型2.1倍的推理加速。螞蟻技術研究院在多個維度對模型進行了評估,結果顯示LLaDA2.0在結構化生成任務(如代碼)上具有顯著優(yōu)勢,并在其他領域與開源AR模型持平。

LLaDA2.0的模型權重(16B/100B)及相關訓練代碼已在Huggingface開源。

來源:一電快訊

返回第一電動網(wǎng)首頁 >

6點贊
發(fā)表評論
熱文榜
第一電動網(wǎng)官方微信

反饋和建議 在線回復

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進行報價!

第一電動網(wǎng)
Hello world!