該項(xiàng)工作的作者分別是來自香港中文大學(xué)的博士生施柯煊,來自西湖大學(xué)的助理教授溫研東,來自香港中文大學(xué)的計(jì)算機(jī)系助理教授劉威楊。
當(dāng)前,基于通用基礎(chǔ)模型進(jìn)行任務(wù)特定微調(diào)已成為主流范式。這種范式雖然能夠在各個(gè)特定任務(wù)上獲得高性能的專家模型,但也帶來新的挑戰(zhàn):如何將這些特定微調(diào)得到的專家模型的能力有效整合到單一模型中并且無需訪問原始訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)多任務(wù)協(xié)通,同時(shí)最小化性能損失?
針對這一問題,研究者們提出了FDA(Model Merging with Functional Dual Anchors)——一個(gè)全新的模型融合框架。與傳統(tǒng)的參數(shù)空間操作不同,F(xiàn)DA 將專家模型的參數(shù)知識(shí)投射到輸入-表征空間中的合成錨點(diǎn),通過功能對偶的方式實(shí)現(xiàn)更高效的知識(shí)整合。