我們用AI做圖、修圖時,經(jīng)常會遇到一些難題:想把圖中的杯子挪個位置,結(jié)果杯子變形了;想換個視角看看畫面,透視卻完全不對;想調(diào)整兩個物體的前后位置,也會出現(xiàn)遮擋混亂、比例失衡……核心問題是AI更像是在平面上“P圖”,無法理解圖像背后的三維空間結(jié)構(gòu)。
近日,京東(JD)探索研究院正式開源了自研的JoyAI-Image-Edit圖像模型,徹底解決上述難題。這是業(yè)內(nèi)首個把 “空間智能” 刻進骨子里的開源模型,讓AI終于能真正 “看懂” 空間、“編輯” 空間,從原來的平面修圖,升級成了三維空間重塑,而且模型的推理代碼全部開放,開發(fā)者能直接拿來做應(yīng)用。
徹底解決傳統(tǒng)模型空間邏輯混亂難題
JoyAI-Image-Edit深度貼合真實世界空間規(guī)律,從空間位置關(guān)系、多視角一致性、相機感知到場景推理等維度全面建模,實現(xiàn)了相機坐標視角變換、物體空間位移旋轉(zhuǎn)、幾何結(jié)構(gòu)精準控制等多項空間編輯技術(shù)突破,將空間認知能力深度融入文本與圖像生成流程,搭建了完整的空間理解數(shù)據(jù)與任務(wù)體系。
該模型打破了AI“理解圖像” 和 “生成圖像” 的壁壘,讓AI不僅能生成逼真的圖像外觀,更能精準理解圖像背后的空間結(jié)構(gòu),在編輯過程中穩(wěn)定保持主體形象與場景結(jié)構(gòu)完整,多視角空間布局高度一致。不管是移動物體、換視角,還是調(diào)整物體間的關(guān)系,都能保持場景的幾何規(guī)律,遮擋、光影也都自然合理,不會再出現(xiàn)變形、錯亂的情況,徹底解決傳統(tǒng)模型空間邏輯混亂的行業(yè)難題。
經(jīng)實驗驗證,在物體移動精度、空間一致性等空間編輯核心指標上,JoyAI-Image-Edit達到世界一流水準。
三大空間編輯范式突破
融合15類通用編輯能力
JoyAI-Image-Edit的核心躍升,在于其攻克了此前開源模型難以逾越的空間理解難題,具備三大辨識度極高的空間編輯能力:視角變換——用戶可通過自然語言指定相機的偏航角、俯仰角及縮放程度,模型在保持場景幾何一致性的前提下生成新視角圖像;空間漫游——支持連續(xù)的視角移動,生成在空間中邏輯連貫的多視角圖像序列,類似于在三維場景中"走動";物體空間關(guān)系操控——在保持場景整體結(jié)構(gòu)穩(wěn)定的前提下,對特定物體進行位移、縮放等空間變換,同時確保遮擋與光影關(guān)系自然合理。
在實現(xiàn)空間級突破的同時,JoyAI-Image-Edit全面兼容15類通用編輯能力,深度覆蓋內(nèi)容創(chuàng)作的高頻需求。無論是物體的替換、刪除、添加,還是整體風格遷移、細節(jié)精修等操作,模型均實現(xiàn)了高性能覆蓋。結(jié)合頂尖的空間編輯技術(shù),模型在長文本精準渲染、多視角一致性生成等行業(yè)高難度任務(wù)中表現(xiàn)卓越,真正做到了全場景、無死角的高效創(chuàng)作。
憑借領(lǐng)先的空間理解與編輯能力,JoyAI-Image-Edit模型突破場景限制,可廣泛應(yīng)用于電商內(nèi)容生產(chǎn)、創(chuàng)意設(shè)計制作、智能圖像處理、3D模型重建、具身智能視覺感知等多元領(lǐng)域,大幅提升AI圖像技術(shù)在復雜空間場景中的適配性與實用性。尤其是在具身智能領(lǐng)域,空間理解能力是機器人“理解世界”的核心基礎(chǔ),而該模型的推出,也為相關(guān)技術(shù)研發(fā)提供了關(guān)鍵的底層能力。
此次JoyAI-Image-Edit的開源,是京東(JD)在AI多模態(tài)模型領(lǐng)域的重要布局,更是讓AI圖像編輯實現(xiàn)了從平面到空間的大跨越。未來該模型還將持續(xù)落地更多場景,不斷探索空間智能落地價值。
在AI研發(fā)和應(yīng)用領(lǐng)域,京東(JD)今年成果不斷。過去一個月內(nèi),京東(JD)宣布首次開源基礎(chǔ)大模型JoyAI-LLM Flash,打破了大模型參數(shù)內(nèi)卷的困局;京東(JD)云“龍蝦”系列產(chǎn)品集體上線,token調(diào)用量周環(huán)比增長高達455%;京東(JD)還宣布將建成全球最大的具身數(shù)據(jù)采集中心。依托超級供應(yīng)鏈優(yōu)勢,京東(JD)將持續(xù)推動AI與產(chǎn)業(yè)深度融合,真正為產(chǎn)業(yè)創(chuàng)造價值。
