蓋世汽車訊 自動駕駛技術(shù)發(fā)展迅速,已從基于規(guī)則的系統(tǒng)發(fā)展到深度神經(jīng)網(wǎng)絡。然而,端到端模型仍然存在一些重大缺陷:它們通常缺乏對世界的認知,在罕見或模糊的場景下表現(xiàn)不佳,并且對其決策過程的解釋能力有限。相比之下,大語言模型(LLM)擅長推理、理解上下文和解釋復雜的指令。但是,LLM的輸出是語言形式而非可執(zhí)行指令,這使得將其與實際車輛控制系統(tǒng)集成變得困難。這些不足之處凸顯了對一種框架的需求,該框架能夠?qū)⒍嗄B(tài)感知與基于既定駕駛邏輯的結(jié)構(gòu)化、可執(zhí)行的決策輸出相結(jié)合。解決這些挑戰(zhàn)需要深入研究如何將多模態(tài)推理與自動駕駛規(guī)劃器相結(jié)合。
圖片來源: 期刊《Visual Intelligence》
據(jù)外媒報道,上海交通大學、上海人工智能實驗室、清華大學及合作機構(gòu)的研究團隊開發(fā)了一種用于閉環(huán)自動駕駛的多模態(tài)大型語言模型框架DriveMLM。相關(guān)研究成果已發(fā)表在期刊《Visual Intelligence》上(DOI: 10.1007/s44267-025-00095-w)。
DriveMLM集成了多視角攝像頭圖像、激光雷達點云、系統(tǒng)消息和用戶指令,生成對齊的行為規(guī)劃狀態(tài)。這些狀態(tài)可以直接輸入到現(xiàn)有的運動規(guī)劃模塊,從而實現(xiàn)實時駕駛控制,同時生成對每個決策的自然語言解釋。
來源:第一電動網(wǎng)
作者:蓋世汽車
本文地址:http://m.vlxuusu.cn/news/shichang/280644
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(m.vlxuusu.cn)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。