一周AI大事:Sora 2開啟"造夢時代",馬斯克機器人在學功夫快訊
OpenAI發布Sora 2視頻生成模型,AI視頻生成模型再現物理現實的失誤與大語言模型的,當前AI視頻模型是否具備物理推理能力。
一、重磅工具:Sora 2視頻生成模型發布——造夢人已就位,AI幫你把‘主角夢’拍成現實
新聞:OpenAI發布Sora 2視頻生成模型,并通過一段介紹視頻展示了其強大功能。Sora 2提升了視頻的真實感、畫質和一致性,實現了音畫同步,還支持用戶通過自己的肖像生成客串視頻。
OpenAI還同步推出搭載Sora 2模型的iOS應用,內置TikTok風格的視頻信息流供用戶發現生成內容,并集成了AI視頻創作功能。Sora的“客串”(Cameos)功能允許用戶上傳個人肖像,讓自己出現在生成的視頻中。這一有趣功能催生了大量廣泛傳播的Sora 2視頻。目前Sora模型仍處于邀請制階段,邀請碼正分批發放。
銳評:Sora 2讓你一秒“穿越”進大片當主角,前提是……得先有邀請碼。
二、AI技術與產品發布——從代碼到功夫,從云端到桌面:大模型“諸神之戰”比各大景區還熱鬧
1. 新聞:Anthropic公司發布Claude Sonnet 4.5。官方稱其在編程、智能體AI和計算機操作方面表現優異,具備強大的推理和工具使用能力。在編程類基準測試SWE-bench Verified中,該模型取得77.2%的頂尖成績,并行測試時可達82.0%;在“計算機操作”任務中的得分也達到頂尖水平,為61.4%。
相較于業內頂級模型,Claude Sonnet 4.5在構建金融分析、智能體工具使用等智能體工作流方面的性價比超高。目前用戶評價褒貶不一,但普遍認為其UI表現優異,而且能用各種刁鉆古怪的提示詞來測試Sora 2的極限。Claude Sonnet 4.5在速度和價格上都有顯著提升,能以Sonnet 4的定價提供媲美Claude 4.1 Opus的性能,不過其成本仍然是GLM-4.6的8倍。
銳評:性能直追頂配版,價格卻只要“中配”的錢,唯一煩惱可能是隔壁國產大模型比它便宜了8倍。
2. 新聞:智譜AI發布GLM-4.6。作為GLM-4.5的升級版,GLM-4.6支持更長的上下文(最高20萬token),提升了編碼和推理性能,并降低了實際應用中的token消耗。此次更新專注于增強智能體工作流能力,在Terminal-Bench測試中得分為40.5%,在GPQA測試中得分81.0%,在HLE中得分17.2%,SWE-bench Verified得分68%,在頂尖模型中性價比極高。GLM-4.6已開放模型權重,用戶可通過智譜清言平臺和HuggingFace獲取。
銳評:加量還降價,誓要卷死海外同行。
3. 新聞:DeepSeek(深度求索)發布DeepSeek-V3.2-Experimental。該模型基于DeepSeek-V3.1-Terminus開發,引入“深度求索稀疏注意力”(DSA)機制,在保證與前代模型同等質量的前提下,顯著降低了長上下文場景下的訓練和推理計算量。根據《DeepSeek-V3.2-Exp技術報告》的闡釋,DSA的細粒度稀疏注意力機制使注意力復雜度接近線性而非二次方變化,因此能以更低成本處理長上下文查詢并保證結果質量。這也讓DeepSeek能將其API推理價格減半。
銳評:啥是“稀疏注意力”不重要,重要的是深度求索靠這招把API價格直接砍了一半。
4. 新聞:騰訊發布混元生圖3.0(HunyuanImage 3.0)。這是一個開源權重的800億參數混合專家(MoE)文生圖模型,每token激活參數達130億。這款強大的多模態模型在自回歸框架下統一了多模態理解和圖像生成,效果斐然?;煸鷪D3.0已登頂LMArena綜合榜與文生圖專項榜,超越原冠軍NanoBanana。騰訊混元已在Hugging Face公開權重并發布了技術報告。
銳評:一不小心就坐上了全球開源文生圖的頭把交椅。
5. 新聞:阿里云通義千問Qwen3系列模型發布并開源了新一代多模態模型Qwen3-VL-30B-A3B-Thinking和Qwen3-VL-30B-A3B-Instruct。Qwen3-VL是一個多模態視覺語言模型系列,基于其前代產品,在視覺理解方面實現了顯著提升,同時保持了強大的純文本處理能力。
銳評:前有鵝廠登頂,后有阿里通義上新,國產大模型“神仙打架”。
6. 新聞:Hume AI推出新一代文本轉語音模型Octave 2,具備更低延遲(低于200毫秒)和深度情感理解能力,并將多語言支持擴展到11種語種。用戶可通過Hume平臺和API預覽體驗版。
銳評:AI語音還能讀懂你的情緒,以后吵架可能都吵不贏它了。
7. 新聞:俄羅斯AI研究實驗室AI-Forever開源了文本生視頻模型Kandinsky 5.0 T2V Lite。該模型參數為20億,為生成5到10秒的AI視頻提供了領先的輕量級開源方案。Kandinsky 5.0 T2V Lite包含多個變體,針對不同時長和流程進行了優化。相關代碼和說明發布在GitHub平臺,模型權重可通過HuggingFace獲取。
銳評:俄羅斯老鐵送溫暖,輕量級開源視頻模型讓普通玩家也能嘗鮮AI大片。
8. 新聞:ServiceNow SLAM實驗室發布開源權重多模態推理模型Apriel-1.5-15B-Thinker,在之前Apriel系列文本模型的基礎上增加了圖像推理能力。報告顯示其性能可與許多更大規模的系統相媲美,模型權重和介紹已上線Hugging Face。
銳評:Apriel證明“小個子”也能有大智慧,專治各種“參數焦慮癥”。
9. 新聞:Liquid AI發布端到端音頻語言基礎模型LFM2-Audio-1.5B,專為低于100毫秒的響應延遲而設計。LFM2-Audio-1.5B支持實時輕量級助手,可以同時理解和生成語音及文本。用戶可通過官方平臺體驗演示版本,模型權重已上線HuggingFace。
銳評:低于100毫秒的響應速度,比你反應還快的AI語音助手來了。
10. 新聞:Perplexity旗下智能體瀏覽器Comet全面開放免費下載。Comet將研究導向的界面與Perplexity問答引擎深度融合,內置引文和快速捕捉等工具,定位為面向搜索與寫作場景的“為你服務”型AI優先瀏覽器。Comet付費版還增加了團隊協作和高級功能。模型功能、平臺支持以及下載安裝鏈接均在官網詳細列明。
銳評:Comet想讓你徹底忘記傳統搜索框,直接把問題喂給瀏覽器。
11. 新聞:挪威瀏覽器公司Opera發布AI瀏覽器Neon,宣稱其為一款“為行動而生”的智能體輔助瀏覽器。Neon已向部分用戶開放,月費19.90美元,其他用戶可申請加入候補名單。Comet和Neon的相繼發布加劇了AI瀏覽器領域的激烈競爭態勢。
銳評:AI瀏覽器大戰愈演愈烈,Neon主打高端局。
12. 新聞:谷歌推出Jules工具集和相關API,為其自主編程智能體Jules拓展集成能力。Jules API基于三大核心概念構建:資源(Source)、會話(Session)和活動(Activity)。Jules通過配置上述三種要素可規劃多步驟編程任務、調用工具模塊,并基于現有代碼庫和CI流程執行命令行操作。谷歌已提供Jules API的完整演示案例和技術文檔。
銳評:谷歌給程序員配齊了AI“工具箱”。
13. 新聞:Gemini取代Google Assistant成為谷歌Nest以及Home設備的默認語音助手。此次更新與全新改版的Google Home應用“Gemini for Home”深度整合,將Gemini功能嵌入到設備設置、控制和自動化流程中,其中還包括支持連續對話的付費版Gemini Live。目前谷歌通過“搶先體驗”計劃推送相關功能,官方宣稱這一舉措將為近十年來發布的舊設備帶來智能體和自動化功能。
銳評:谷歌終于下定決心讓老將Assistant退休,讓Gemini全面接管智能家居。
14. 新聞:谷歌為照片編輯應用Snapseed在設備端新增交互式圖像分割功能。用戶通過完全本地化的“指點分割”交互方式,即可在Snapseed移動應用中實現快速摳圖和圖像編輯功能。谷歌研究博客詳述了模型架構和用戶體驗,將其定位為面向創作者的本地視覺實用功能。
銳評:“指尖魔法”成現實,P圖黨的福音來了。
15. 新聞:谷歌正在預覽一款全新的Gemini人工智能模型,該模型旨在通過瀏覽器瀏覽網絡并與之交互,使AI智能體能夠在原本為人類而非機器人設計的用戶界面中執行操作。這款名為“Gemini 2.5計算機使用”(Gemini 2.5 Computer Use)的模型,利用“視覺理解與推理能力”分析用戶的請求,并完成相應任務,例如填寫并提交表單。
銳評:AI也學會上網“沖浪”辦事了,以后摸魚刷網頁可能比用戶還熟練。
16. 新聞:特斯拉官方賬號@TeslaAI于10月4日發布視頻,展示了特斯拉Optimus人形機器人正在學習功夫的場景。針對Optimus本次“對打”是遙控還是AI驅動的問題,馬斯克在X平臺帖子的評論區明確回應:“是AI,不是遙控?!?/p>
銳評:別家的AI還在畫圖寫詩,馬斯克的機器人已經開始練詠春了。
三、AI研究資訊——從“提示詞焦慮”到“舉一反三”,AI研究正進化成會思考的自己
1. 新聞:谷歌研究團隊提出協同圖像生成工作流,通過約束編輯與結構化輸入讓用戶對模型進行迭代式“協同引導”,從而減少反復調整提示詞的麻煩。相關研究論文《Preference》提出強化學習智能體PASTA的概念,可優化文生圖的交互過程,提高生成式圖像任務的可控性和創作者的滿意度。盡管這還是一項研究,但為谷歌圖像工具生態系統中的編輯功能改進提供了支持。
銳評:谷歌這項新研究,就是想治好廣大創作者的“提示詞焦慮癥”。
2. 新聞:麻省理工學院林肯實驗室揭幕全球高校最強AI超級計算機TX-GAIN。這套新系統專為生成式AI工作負載優化,旨在加速從生物防御到材料發現等領域的研究進程。雖然與科技巨頭的數據中心相比,這套擁有600張GPU的學術計算系統規模不算大,但算力仍達到2exaflops(百億億次),躋身TOP500超級計算機榜單。
銳評:麻省理工學院也開始秀科研算力。
3. 新聞:Meta、Mila-Quebec AI Institute、蒙特利爾大學和普林斯頓大學聯合提出元認知復用(Metacognitive Reuse)機制。簡單來說,就是讓模型自己回顧、總結解題思路,將常用的推理套路提煉成更為簡潔的“行為”,并將其存儲于“行為手冊(Behavior Handbook)” 中。當再遇到類似問題時,模型便可直接從手冊中調用相應的行為,無需重新推導。實驗結果顯示,該機制通過行為條件推理、行為引導自我改進、行為條件監督微調三種應用場景,在MATH、AIME等數學基準測試中實現了顯著優化,在保持準確率不變的前提下,最多可減少46%的推理token使用量。
銳評:說白了就是讓AI學會“舉一反三”,把解題套路存進小本本,下次直接抄作業。
四、AI商業與政策動態——算力、資本與版權博弈:AI巨頭的下一場戰爭在幕后打響
1. 新聞:OpenAI與AMD簽署一項價值數十億美元的股權協議,在過去12個月里OpenAI通過風險投資交易籌集了約470億美元,估值達到約5000億美元。今年以來,OpenAI已簽署價值高達約1萬億美元的交易,從而獲得運行人工智能模型的計算能力,交易方包括AMD、英偉達、甲骨文和CoreWeave等,這些企業的利益也與OpenAI未來的盈利能力相綁定。通過交易,OpenAI在未來十年內將獲得超過20吉瓦的計算能力,大致相當于20個核反應堆的電力。OpenAI高管預估,按照目前的電力價格計算,每1吉瓦的人工智能計算能力的部署成本約為500億美元。
銳評:OpenAI不是在買算力,就是在去買算力的路上。
2. 新聞:OpenAI規模最大的一屆開發者大會DevDay于10月6日在舊金山Fort Mason舉行。會上,公司介紹并演示了為ChatGPT打造應用程序App的框架Apps SDK(軟件開發框架)、支持打造AI智能體(Agent)的AgentKit、以及輕松嵌入ChatGPT聊天功能的ChatKit。
銳評:大會三件套發布,OpenAI要拉開發者一起搞錢。
3. 新聞:OpenAI宣布三星和SK集團加入“星際之門”(Stargate)計劃,并拓展韓國AI數據中心布局。OpenAI表示,兩家韓國企業的加入有助于加速全球AI基礎設施建設,與早前甲骨文、軟銀等數據中心合作建設計劃形成互補。此次合作不僅擴大了內存芯片供應,也增加了韓國AI數據中心的容量,既能支持全球AI算力,也符合韓國自身AI發展戰略。此外,OpenAI還宣布與日本數字廳達成戰略合作,通過與政府機構推廣生成式AI應用。
銳評:像極了攢局打游戲,到處拉人組隊刷“算力副本”。
4. 新聞:外媒援引知情人士稱,埃隆·馬斯克(Elon Musk)麾下AI創企xAI被曝正進行200億美元(折合人民幣約1424億元)融資,英偉達在這輪融資中的股權投資部分高達20億美元(折合人民幣約142億元)。知情人士稱xAI這筆新融資包括股權和債務,將與其計劃在大型數據中心Colossus 2中使用的英偉達GPU掛鉤。
銳評:主要目的似乎是拉賣“鏟子”的英偉達入伙。
5. 新聞:Meta宣布自今年12月起使用用戶與AI助手的聊天記錄來個性化定制信息流、短視頻、群組及廣告內容,但敏感話題除外。歐盟、英國和韓國因監管要求暫不實施,此舉凸顯出AI助手交互數據正與核心廣告系統深度整合。
銳評:你跟AI說的每一句“心里話”都被Meta默默記下,轉身就變成精準推送的廣告。
6. 新聞:歐盟委員會宣布一項10億歐元(約合11億美元)的計劃,旨在推動在關鍵行業廣泛應用人工智能技術,同時努力減少歐盟對其他國家技術的依賴。歐盟執行機構的“應用人工智能”(Apply AI)戰略是在今年4月份公布的一份行動計劃之后出臺的。該計劃旨在減輕初創企業因難以遵守去年8月生效的具有里程碑意義的人工智能規則而帶來的監管負擔和成本壓力。
銳評:歐盟狂砸10億歐元,生怕AI掉隊。
7. 新聞:美國商務部擬議的“50%規則”可能沖擊依賴版權素材訓練的AI公司。據報道,相關草案要求,若訓練數據中超過50%的內容受版權保護,則公司必須進行披露或取得授權。這可能會大大提高專有模型訓練數據的透明度,推動AI廠商更多使用授權語料庫。
銳評:以后靠“白嫖”版權內容訓練模型的日子可能要到頭了。
8. 新聞:環球音樂和華納音樂將與谷歌、Spotify以及Udio、Suno、Stability AI等AI初創公司達成授權協議,或將重塑AI時代的音樂產業。據悉,談判雙方探討了類似流媒體的微支付模式。這項協議有望規范生成式音樂工具的訓練數據授權與輸出內容版權管理。
銳評:音樂巨頭們拿著版權排隊等收錢了。
9. 新聞:由于好萊塢強烈抗議其平臺使用大量未經授權的角色和版權材料,OpenAI正為Sora 2增加版權方對角色使用的控制功能。OpenAI計劃為電影公司提供細粒度的IP或角色控制機制,并探索授權IP的商業化框架。據報道,迪士尼已選擇退出合作體系。這一功能的具體實施方案和政策細節仍在不斷完善中。
銳評:一邊用人家的IP玩得飛起,一邊又給好萊塢大佬們上“版權鎖”功能,這波操作屬實有點尷尬。
10. 新聞:OpenAI通過官方新聞賬號對馬斯克最新以訴訟為幌子的騷擾策略作出回應。OpenAI表示,公司不需要也不想要任何人的商業機密。OpenAI將保護員工,不會被馬斯克試圖欺凌他們的行為所嚇倒。
銳評:遭OpenAI明杠,老馬又碰上硬茬了。
五、AI觀點——畫得出“皮相”,卻畫不出“筋骨”,真實感之外的AI“虛幻”危機
新聞:當前AI視頻模型是否具備物理推理能力?答案是否定的。一項新的基準研究發現,當前主流文生視頻系統的物理推理表現參差不齊,視頻真實感的進步速度遠超其對現實世界的深入理解。這對AI安全性和可靠性構成了重要隱患。
以Veo 3的典型失誤案例(此處“失誤”指無法持續正確完成任務)為例,當被要求模擬打開煤氣燈并燒掉一張紙時,12次嘗試中有9次失敗;當被要求解決簡單迷宮時,12次嘗試中有10次失?。划敱灰蟀错樞虼疗茙撕灥臍馀輥斫o數字排序時,12次嘗試中有11次失敗。
或許可以說,AI視頻生成模型再現物理現實的失誤與大語言模型的“幻覺”現象如出一轍。它只是基于統計數據來模擬現實,卻缺乏現實根基。要解決AI視頻的真實性缺陷,很可能需要開發基于現實世界基礎的AI模型。
銳評:AI視頻模型的物理大概也是體育老師教的。(辰辰)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
