再獲國(guó)際認(rèn)可 作業(yè)幫大模型PoFT技術(shù)被AAAI 2025錄用快訊
使模型優(yōu)先學(xué)習(xí)優(yōu)質(zhì)數(shù)據(jù),以多模型為專家對(duì)學(xué)習(xí)數(shù)據(jù)進(jìn)行權(quán)重打分,不僅體現(xiàn)了作業(yè)幫在大模型優(yōu)化領(lǐng)域的技術(shù)實(shí)力。
【TechWeb】日前,第39屆國(guó)際人工智能大會(huì)(AAAI 2025)如期召開(kāi)。憑借顯著的創(chuàng)新性和應(yīng)用價(jià)值,作業(yè)幫研發(fā)的“偏好導(dǎo)向監(jiān)督微調(diào)(PoFT)”技術(shù)被大會(huì)成功收錄,技術(shù)覆蓋深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、知識(shí)計(jì)算等多個(gè)前沿技術(shù)領(lǐng)域。作為中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議,AAAI收錄的全球人工智能領(lǐng)域的頂尖學(xué)術(shù)成果,都經(jīng)過(guò)了多輪嚴(yán)格評(píng)審。
在智能教育應(yīng)用中,大語(yǔ)言模型的核心價(jià)值在于“理解指令并作出精準(zhǔn)響應(yīng)”。比如講解數(shù)學(xué)題時(shí),模型需兼顧解題步驟的嚴(yán)謹(jǐn)性與語(yǔ)言表達(dá)的通俗性,這就要求模型必須經(jīng)過(guò)充分的“對(duì)齊訓(xùn)練”。但高質(zhì)量教學(xué)類(lèi)配對(duì)數(shù)據(jù)的構(gòu)建成本極高,傳統(tǒng)監(jiān)督微調(diào)(SFT)技術(shù)采用的“交叉熵”損失函數(shù)平等對(duì)待所有訓(xùn)練樣本,既無(wú)法突出核心知識(shí)點(diǎn)的學(xué)習(xí)權(quán)重,也容易讓模型吸收低質(zhì)內(nèi)容,進(jìn)而出現(xiàn)題目理解偏差、解答質(zhì)量低下、表述不清等問(wèn)題。
針對(duì)這一痛點(diǎn),作業(yè)幫PoFT技術(shù)提出了創(chuàng)新性的解決方案,其核心思路是“以多模型為專家對(duì)學(xué)習(xí)數(shù)據(jù)進(jìn)行權(quán)重打分”,讓目標(biāo)模型“有判斷、有重點(diǎn)地高效學(xué)習(xí)”。在訓(xùn)練過(guò)程中,要求目標(biāo)模型對(duì)同一數(shù)據(jù)的“置信度”(即模型自認(rèn)回答正確的概率),必須超越這些標(biāo)桿模型的平均水平,以此確保學(xué)習(xí)效果的可靠性。
與此同時(shí),PoFT還具備良好的兼容性:既可結(jié)合現(xiàn)有數(shù)據(jù)過(guò)濾技術(shù)(如IFD、Instag)——先過(guò)濾明顯劣質(zhì)數(shù)據(jù),再通過(guò)PoFT優(yōu)化學(xué)習(xí)權(quán)重,進(jìn)一步改善性能;也可與偏好對(duì)齊算法(如DPO)組成“兩步訓(xùn)練”流程。在AlpacaEval 2.0基準(zhǔn)測(cè)試中,PoFT+DPO組合方案的勝率較傳統(tǒng)DPO高出2.74個(gè)百分點(diǎn),尤其在復(fù)雜教學(xué)場(chǎng)景中過(guò)擬合風(fēng)險(xiǎn)顯著降低。
教育應(yīng)用對(duì)模型的容錯(cuò)率要求極低——例如同一數(shù)學(xué)題可能有多種解法,模型需精準(zhǔn)識(shí)別“步驟更簡(jiǎn)潔”“邏輯更清晰”等細(xì)微偏好。若因?qū)W習(xí)低質(zhì)量數(shù)據(jù)導(dǎo)致解析錯(cuò)誤,極易誤導(dǎo)學(xué)生。PoFT的做法是通過(guò)“標(biāo)桿模型打分”機(jī)制,使模型優(yōu)先學(xué)習(xí)優(yōu)質(zhì)數(shù)據(jù),精準(zhǔn)捕捉教學(xué)過(guò)程中的特殊偏好。目前,PoFT技術(shù)已經(jīng)應(yīng)用于智能解析、個(gè)性化輔導(dǎo)等產(chǎn)品中。
此次PoFT技術(shù)成功入選AAAI 2025,不僅體現(xiàn)了作業(yè)幫在大模型優(yōu)化領(lǐng)域的技術(shù)實(shí)力,也為智能教育場(chǎng)景的模型適配提供了新思路,即無(wú)需依賴高成本優(yōu)質(zhì)數(shù)據(jù),也可實(shí)現(xiàn)模型性能的穩(wěn)定提升。據(jù)了解,作業(yè)幫自成立以來(lái),一直致力于用技術(shù)手段解決教育痛點(diǎn),在語(yǔ)音識(shí)別、自然語(yǔ)言處理、圖像和OCR識(shí)別、大數(shù)據(jù)、云原生、音視頻等技術(shù)領(lǐng)域持續(xù)探索,關(guān)鍵技術(shù)曾先后獲得中國(guó)信通院應(yīng)用優(yōu)秀案例、卓越創(chuàng)新案例、MIT全球十大突破技術(shù)等多項(xiàng)國(guó)內(nèi)外頂級(jí)獎(jiǎng)項(xiàng)。(七喜)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為T(mén)MT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。
