今日,騰訊正式發(fā)布了混元世界模型1.5(TencentHYWorldPlay),標(biāo)志著業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型框架的首次開(kāi)源。該模型框架覆蓋數(shù)據(jù)、訓(xùn)練、流式推理部署等全鏈路、全環(huán)節(jié),并引入了重構(gòu)記憶力、長(zhǎng)上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。
混元世界模型1.5的核心能力包括實(shí)時(shí)交互生成、長(zhǎng)范圍3D一致性以及多樣化交互體驗(yàn)。模型能夠以24FPS的速度生成720P高清視頻,支持分鐘級(jí)內(nèi)容的幾何一致性生成,并適用于不同風(fēng)格的游戲或現(xiàn)實(shí)場(chǎng)景,支持第一和第三人稱視角。此外,模型還支持實(shí)時(shí)文本觸發(fā)事件和視頻續(xù)寫等功能。
技術(shù)上,混元世界模型1.5依托于自回歸擴(kuò)散模型WorldPlay,采用Next-Frames-Prediction視覺(jué)自回歸任務(wù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了長(zhǎng)范圍幾何一致性的實(shí)時(shí)交互式世界建模。模型的三大核心創(chuàng)新包括雙分支動(dòng)作表征、上下文記憶重構(gòu)機(jī)制和上下文對(duì)齊蒸餾技術(shù),這些創(chuàng)新增強(qiáng)了長(zhǎng)視頻生成的視覺(jué)質(zhì)量和幾何一致性?;煸獔F(tuán)隊(duì)還構(gòu)建了基于3D獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架,以進(jìn)一步提升視頻質(zhì)量。此外,團(tuán)隊(duì)通過(guò)自動(dòng)化3D場(chǎng)景渲染流程獲得大量高質(zhì)量真實(shí)世界渲染數(shù)據(jù),激發(fā)核心算法潛力。


來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(m.vlxuusu.cn)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。