阿里通義Qwen3:推理模型升級,數(shù)學(xué)與編程能力飛躍快訊
實現(xiàn)了數(shù)學(xué)推理和代碼能力的關(guān)鍵性提升,阿里通義近日推出的推理模型新版本Qwen3-30B-A3B-Thinking-2507,這款名為通義Qwen3的新推理模型不僅在知識水平評測(GPQA、MMLU-Pro)上展示了明顯的進步。
【TechWeb】7月31日消息,人工智能領(lǐng)域再掀熱潮。
阿里通義近日推出的推理模型新版本Qwen3-30B-A3B-Thinking-2507,實現(xiàn)了數(shù)學(xué)推理和代碼能力的關(guān)鍵性提升。根據(jù)最新報道,該模型在數(shù)學(xué)推理評測AIME25中取得了85.0分的高分,同時在代碼能力測試LiveCodeBench v6中也以66.0分的成績,顯著超越了包括Gemini2.5-Flash(thinking)和舊款旗艦Qwen3-235B在內(nèi)的競爭對手。
這款名為通義Qwen3的新推理模型不僅在知識水平評測(GPQA、MMLU-Pro)上展示了明顯的進步,還在寫作能力(WritingBench)、Agent執(zhí)行能力(BFCL-v3),以及多輪對話和多語言指令處理(MultiIF)等綜合能力上表現(xiàn)出顯著優(yōu)勢。通過一系列的測試數(shù)據(jù)比較,Qwen3的綜合性能已經(jīng)超越了同類產(chǎn)品的標(biāo)準(zhǔn)水平。
此次模型升級的特色之一是顯著增加了思考長度,這大大提升了模型在面對復(fù)雜任務(wù)時的處理能力。開發(fā)者現(xiàn)在可以利用這一特性,通過延長模型的思考時間,來挖掘其在邏輯推理和多步驟問題解決方面的潛力。
阿里通義已經(jīng)將這一先進模型在魔搭社區(qū)和HuggingFace上開源,同時推出的Qwen Chat智能對話平臺也將為用戶帶來更流暢和高效的交互體驗。這一技術(shù)進步不僅代表了通義千問在專用推理模型領(lǐng)域的重要突破,也為全球開發(fā)者社區(qū)貢獻了一個更加強大的AI工具。(Suky)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。
