螞蟻數科登頂國際權威BIRD榜單 刷新中國公司最好成績快訊
要求AI大模型將自然語言查詢轉換為結構化查詢語言(SQL),Agentar-SQL智能體基于螞蟻數科的SQL大模型Agentar-Scale-SQL構建,BIRD-Bench是公認的全球最具權威性的自然語言轉SQL評測基準。
【TechWeb】9月26日消息,據全球權威評測基準BIRD-Bech官網,螞蟻數科的數據分析智能體Agentar-SQL超越AT&T(美國電話電報公司)、谷歌云、騰訊云、阿里云等諸多國內外廠商,位居全球第一。這也是中國公司在該榜單上取得的最高成績。
BIRD-Bench是公認的全球最具權威性的自然語言轉SQL評測基準,要求AI大模型將自然語言查詢轉換為結構化查詢語言(SQL),并且在真實復雜的大規模生產級數據庫中穩定執行。BIRD--Bench數據集覆蓋金融、電力、醫療等37個行業場景,總量33GB,包含超過1萬條高復雜度查詢任務,是全球頂級AI團隊展示技術實力的權威平臺。
值得一提的是,螞蟻數科Agentar-SQL在BIRD榜單的執行準確率排行榜(81.67分)以及執行效率榜上(77分)上均取得第一的成績。這意味著螞蟻數科在智能問數領域的技術創新實現全球領先。
據介紹,Agentar-SQL智能體基于螞蟻數科的SQL大模型Agentar-Scale-SQL構建,旨在讓用戶可以通過自然語言輕松完成復雜的數據查詢任務。它通過GSPO(組序列策略優化)強化學習訓練方法,能夠增強SQL內在推理,讓大模型在推理階段,深度思考SQL框架,避免潛在的邏輯錯誤,提升SQL邏輯準確性;此外,Agentar-SQL具備多輪反思修正的能力,讓模型對生成的SQL進行多輪次的審視和修正,提升SQL語言的精準性;Agentar-SQL還通過獨創的兩階段生成法,讓大模型生成多個SQL候選,再對SQL進行兩兩PK的“錦標賽”,篩選出最優的SQL。(周小白)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
