干翻Sora 2!百度蒸汽機(jī)實(shí)時(shí)流式生成,把AI生視頻玩出花兒快訊
此次百度蒸汽機(jī)模型突破傳統(tǒng)AI視頻生成10秒左右的時(shí)長限制,蒸汽機(jī)模型還支持生成實(shí)時(shí)交互數(shù)字人,得益于視頻生成模型百度蒸汽機(jī)的再次升級支持。
【TechWeb】10月15日,百度搜索全面升級了文心助手的AIGC創(chuàng)作能力,可支持AI圖片、AI視頻、AI音樂、AI播客等8種模態(tài)創(chuàng)作,且能夠一鍵調(diào)用多工具解決多場景問題。
尤其值得一提的是文心助手提供行業(yè)領(lǐng)先的長視頻生成玩法。輸入一段話,即可創(chuàng)作一部 3 分鐘的故事大片。而這一能力,得益于視頻生成模型百度蒸汽機(jī)的再次升級支持。
百度蒸汽機(jī)模型自今年5月闖入AI生視頻賽道就拿下VBench-I2V全球榜一。
此次百度蒸汽機(jī)模型突破傳統(tǒng)AI視頻生成10秒左右的時(shí)長限制,還在行業(yè)首次實(shí)現(xiàn)AI長視頻“實(shí)時(shí)交互”生成,也就是過程可打斷、可編輯,而且生成速度超越國內(nèi)主流視頻生成模型。
目前,每天有千萬量級的AIGC內(nèi)容由用戶通過文心助手創(chuàng)作產(chǎn)生。
在接受媒體采訪時(shí),百度副總裁、百度搜索總經(jīng)理趙世奇和百度副總裁、移動生態(tài)商業(yè)體系負(fù)責(zé)人陳一凡不約而同的都提到,Sora 2帶來啟發(fā),隨著百度大模型技術(shù)的進(jìn)化,結(jié)合大模型的能力,在產(chǎn)品側(cè),要讓AI生視頻、AIGC的使用門檻更低、用戶玩法更豐富。
此次百度搜索&蒸汽機(jī)模型,讓AI生視頻的體驗(yàn)邁上新臺階。
AI生視頻全新交互體驗(yàn):可任意編輯、控制劇情走向
作為AI生視頻背后能力支撐,此次升級后的蒸汽機(jī)模型有幾大突破:
1、僅上傳一張圖片和一段提示詞就可生成一段長視頻。支持長視頻流式生成,突破了市面上(包括Sora2),AI生視頻工具5s-10s的時(shí)長限制,可生成任意時(shí)長視頻。
2、支持實(shí)時(shí)交互,也就是用戶在生成視頻的過程中,可隨時(shí)打斷、任意修改提示詞需求,來調(diào)整生成的視頻內(nèi)容。這意味著,用戶在生成過程中可隨時(shí)暫停,并基于已生成的畫面提交新的Prompt(提示詞)來引導(dǎo)后續(xù)劇情發(fā)展。這極大的方便了視頻創(chuàng)作。
使用入口:百度搜索/百度APP/搜索「百度蒸汽機(jī)」;繪想平臺鏈接:https://huixiang.baidu.com
據(jù)介紹,蒸汽機(jī)模型能力支持無限時(shí)長生成,產(chǎn)品層面考慮用戶應(yīng)用場景會做一定時(shí)長限制。目前,對創(chuàng)意視頻時(shí)長會限制在1分鐘。
現(xiàn)場,百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林演示了用蒸汽機(jī)模型生成沙漠賽車視頻時(shí),根據(jù)用戶不同需求,實(shí)現(xiàn)實(shí)時(shí)生成不同比賽結(jié)果(銀色車勝出,還是黃色車勝出)的視頻效果。
引來現(xiàn)場陣陣掌聲。
蒸汽機(jī)模型這種具備交互能力的長視頻生成技術(shù)重塑了人機(jī)互動模式,有望推動內(nèi)容消費(fèi)方式由“被動接收”向“共同創(chuàng)造”轉(zhuǎn)變,甚至催生新型藝術(shù)形式與商業(yè)生態(tài)。
陳一凡介紹,目前蒸汽機(jī)的長視頻生成能力已經(jīng)受到營銷圈、娛樂化用戶的青睞。
背后技術(shù)突破
百度商業(yè)研發(fā)首席架構(gòu)師李雙龍介紹,此次蒸汽機(jī)模型升級的解法與思考是從分治到全局,引入自回歸擴(kuò)散模型(Autoregressive Diffusion Models),同時(shí)結(jié)合自回歸的長序列能力和擴(kuò)散一致性強(qiáng)的優(yōu)點(diǎn),進(jìn)行優(yōu)化。
通過引入自回歸擴(kuò)散模型,采用基于流式滑窗的自回歸擴(kuò)散架構(gòu),以此來實(shí)現(xiàn)低成本無限外推和實(shí)時(shí)生成。長視頻生成過程為流式體驗(yàn),模型推理出多少,用戶即可實(shí)時(shí)預(yù)覽多少,無需等待全部生成完成。采用全局規(guī)劃與局部參考相結(jié)合的優(yōu)化方法,解決生成長視頻時(shí)的連續(xù)性與一致性問題。
同時(shí)依托商業(yè)強(qiáng)大的工程優(yōu)化能力,對模型進(jìn)行極致壓縮,優(yōu)化主要包括模型參數(shù)壓縮(大模型蒸餾小模型)、window attention降低attention過程中可見序列長度、步數(shù)和CFG蒸餾等策略,不斷降低推理耗時(shí),最終實(shí)現(xiàn)幾乎實(shí)時(shí)性效果。
AI視頻生成領(lǐng)域正處在一個(gè)技術(shù)快速迭代、應(yīng)用場景不斷拓展的關(guān)鍵階段。
目前,蒸汽機(jī)模型還支持生成實(shí)時(shí)交互數(shù)字人,告別以往單向輸出的數(shù)字人視頻模式,支持沉浸式互動,做用戶專屬的數(shù)字人。可拓展AI導(dǎo)購、AI老師、AI陪伴等沉浸式數(shù)字人場景。
另外,蒸汽機(jī)模型支持開放世界生成,無論是游戲地圖、旅游景點(diǎn)體驗(yàn)、還是宇宙空間,都可以任意生成、任意探索,任意創(chuàng)造。
“把AI生視頻的門檻降低,就會有更多玩法融入”,劉林表示,AI生成視頻打破了長度的限制之后,進(jìn)一步降低了視頻創(chuàng)作門檻,能生成更完整更優(yōu)質(zhì)的內(nèi)容,助力創(chuàng)作者的生產(chǎn)和變現(xiàn)。
另外,李雙龍?zhí)岬剑羝麢C(jī)模型下一步重點(diǎn)技術(shù)迭代將放在“有聲一體化、支持多人、長視頻”這些方向。(果青)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。
