速途網(wǎng)4月10日消息(報(bào)道:李楠)今日,小馬智行(PONY)正式發(fā)布其在物理AI領(lǐng)域的最新技術(shù)成果——PONYWorld世界模型2.0。
這是自動(dòng)駕駛核心訓(xùn)練體系的一次重大升級(jí)。與1.0相比,2.0最本質(zhì)的變化在于世界模型具備了自我診斷與定向進(jìn)化的能力:AI不再依賴工程師花大量精力判斷模型哪里有問(wèn)題、需要采集什么樣的數(shù)據(jù)來(lái)迭代,而是能夠自主診斷自身短板,自我定向進(jìn)化,并主動(dòng)“指導(dǎo)”人類團(tuán)隊(duì)的研發(fā)和數(shù)據(jù)采集工作。這一變化標(biāo)志著小馬智行(PONY)的自動(dòng)駕駛技術(shù)進(jìn)入全新的研發(fā)訓(xùn)練范式。
目前,世界模型2.0已經(jīng)應(yīng)用在小馬智行(PONY)L4級(jí)無(wú)人駕駛(885736)車隊(duì)和研發(fā)體系中,來(lái)確保車輛不斷提升安全性、舒適性和通行效率,從而帶動(dòng)更快的擴(kuò)張速度和商業(yè)變現(xiàn)能力。當(dāng)無(wú)人駕駛(885736)車隊(duì)規(guī)模從百輛躍升至千輛乃至萬(wàn)輛,要確保安全性等各項(xiàng)指標(biāo)整體上穩(wěn)步提升,自動(dòng)駕駛技術(shù)亦需要不斷迭代進(jìn)化,世界模型2.0是目前技術(shù)的最優(yōu)解。PONYWorld不局限于優(yōu)化自動(dòng)駕駛場(chǎng)景,也具有探索其他物理AI場(chǎng)景和應(yīng)用的可能。
作為物理AI的第一個(gè)成熟商業(yè)化落地的應(yīng)用,L4級(jí)自動(dòng)駕駛和Robotaxi對(duì)安全性的要求極高,只有遠(yuǎn)超人類的安全性,才能大規(guī)模上路運(yùn)營(yíng)并被公眾接受。正因如此,小馬智行(PONY)認(rèn)為自動(dòng)駕駛模型的訓(xùn)練目標(biāo)不應(yīng)是“像人開得一樣”,而是“比人開得好”,這意味著一種范式的變化——從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)。小馬智行(PONY)從2020年起,通過(guò)數(shù)年時(shí)間逐步打造并完善了一套貫穿云端與車端的完整體系,讓AI通過(guò)強(qiáng)化學(xué)習(xí)增強(qiáng)模型開車能力,使AI可以在“虛擬駕校”中反復(fù)開車、訓(xùn)練車端模型的駕駛能力,這也就是“世界模型”。世界模型不是簡(jiǎn)單生成虛擬數(shù)據(jù)的仿真環(huán)境,而是一套完整的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)以及開發(fā)范式,幫助AI提升駕駛中最重要的博弈交互能力。
只有世界模型的精度足夠高,AI司機(jī)才可以在這個(gè)環(huán)境中取得正向訓(xùn)練結(jié)果,否則AI模型的駕駛能力可能越學(xué)越錯(cuò),甚至還不如引入海量人類駕駛數(shù)據(jù)的模仿學(xué)習(xí)。通過(guò)世界模型,小馬智行(PONY)提升自動(dòng)駕駛能力的過(guò)程,本質(zhì)上也是提升世界模型精度的過(guò)程。
而隨著AI司機(jī)的能力尤其是安全性已經(jīng)遠(yuǎn)超人類,小馬智行(PONY)世界模型的精度也達(dá)到了很高的高度,如何進(jìn)一步高效率提升世界模型精度的迭代效率便成為核心目標(biāo)。小馬智行(PONY)為此打造了一套更進(jìn)化的世界模型系統(tǒng)——由AI驅(qū)動(dòng),可以主動(dòng)找到自己精度不足的場(chǎng)景,主動(dòng)尋求人類幫助去提升——也就是PONYWolrd世界模型2.0。
PonyWorld世界模型2.0三大核心能力突破,精度持續(xù)提升
PONYWorld 2.0結(jié)合小馬智行(PONY)車端模型的Intention(意圖)語(yǔ)義層,實(shí)現(xiàn)了對(duì)每一次駕駛決策的自動(dòng)化回溯與歸因分析。系統(tǒng)能夠自動(dòng)區(qū)分問(wèn)題根源,并將診斷結(jié)果精準(zhǔn)反饋至模型訓(xùn)練流程。
定向進(jìn)化能力:從“廣撒網(wǎng)”到“精準(zhǔn)補(bǔ)短板”
基于自我診斷結(jié)果,PONYWorld 2.0能夠自動(dòng)識(shí)別世界模型精度不足的具體場(chǎng)景,并主動(dòng)生成定向數(shù)據(jù)采集任務(wù)。例如,系統(tǒng)可自動(dòng)推送指令:“請(qǐng)于特定時(shí)段在指定路口重點(diǎn)采集逆光條件下非機(jī)動(dòng)車與行人混行場(chǎng)景數(shù)據(jù)。”研發(fā)與測(cè)試團(tuán)隊(duì)由此圍繞世界模型的“精度需求”高效協(xié)作,實(shí)現(xiàn)AI引導(dǎo)下的定向數(shù)據(jù)采集與模型迭代。
訓(xùn)練效率躍升:專練“難題”,跳過(guò)“送分題”
PONYWorld 2.0可根據(jù)車端模型的薄弱環(huán)節(jié),在世界模型中自動(dòng)生成針對(duì)性訓(xùn)練場(chǎng)景,大幅減少無(wú)效訓(xùn)練數(shù)據(jù)的存儲(chǔ)與計(jì)算開銷,顯著提升每一輪迭代的效率和效果。
小馬智行(PONY)強(qiáng)調(diào),世界模型精度的持續(xù)提升依賴于一個(gè)自我強(qiáng)化的精度飛輪:大規(guī)模L4無(wú)人車隊(duì)商業(yè)運(yùn)營(yíng) → 產(chǎn)生真實(shí)世界高價(jià)值數(shù)據(jù) → 世界模型提升精度 → 車端模型持續(xù)增強(qiáng) → 支撐更大規(guī)模L4部署 → 產(chǎn)生更多高精度數(shù)據(jù)
當(dāng)AI駕駛能力已遠(yuǎn)超人類司機(jī)水平后,普通人類駕駛數(shù)據(jù)對(duì)世界模型精度的提升價(jià)值趨近于零。只有L4級(jí)全無(wú)人車隊(duì)在真實(shí)交通環(huán)境中獨(dú)立運(yùn)營(yíng)所產(chǎn)生的數(shù)據(jù)——包含AI與其他交通參與者之間獨(dú)特的交互模式——才能持續(xù)推動(dòng)世界模型進(jìn)化。小馬智行(PONY)已積累千萬(wàn)公里級(jí)多城市復(fù)雜場(chǎng)景的純無(wú)人駕駛(885736)數(shù)據(jù),覆蓋城區(qū)、高速、園區(qū)、停車場(chǎng)等多元場(chǎng)景,形成了難以復(fù)制的結(jié)構(gòu)性優(yōu)勢(shì)。
自動(dòng)駕駛研發(fā)范式變革:從“人類驅(qū)動(dòng)”走向“AI驅(qū)動(dòng)”
從更廣義的視角看,小馬智行(PONY)此次發(fā)布的世界模型2.0,是自動(dòng)駕駛研發(fā)范式的一次深層轉(zhuǎn)變。
在行業(yè)發(fā)展早期階段,AI能力弱于人或者與人接近,所以研發(fā)高度依賴人類工程師的經(jīng)驗(yàn)——由人來(lái)設(shè)計(jì)規(guī)則、標(biāo)注數(shù)據(jù)、判斷訓(xùn)練重點(diǎn)。這種由人類驅(qū)動(dòng)的研發(fā)模式,效率天花板受限于團(tuán)隊(duì)規(guī)模和工程師的認(rèn)知帶寬。
PONYWorld世界模型2.0所展現(xiàn)的方向是,當(dāng)AI在一項(xiàng)任務(wù)的水平遠(yuǎn)超人類水平后,人類不一定能很好地評(píng)估其能力和繼續(xù)幫助AI進(jìn)化,AI系統(tǒng)開始接管自身進(jìn)化過(guò)程中越來(lái)越多的環(huán)節(jié),甚至整個(gè)公司的研發(fā)環(huán)節(jié)(包含數(shù)據(jù)收集、模型訓(xùn)練、仿真效果評(píng)估等)都主要由AI驅(qū)動(dòng)。人類工程師的角色從“駕校教練”逐漸轉(zhuǎn)變?yōu)椤岸ㄏ驍?shù)據(jù)采集員” ,成為AI大腦自我進(jìn)化的物理執(zhí)行者。這讓研發(fā)節(jié)奏不再依賴人類經(jīng)驗(yàn)判斷,而是由AI系統(tǒng)根據(jù)自身進(jìn)化需求自動(dòng)生成,也顯著的提高了世界模型的持續(xù)迭代效率。為后續(xù)物理AI的更多應(yīng)用場(chǎng)景提供進(jìn)化能力的基礎(chǔ)。
