近日,谷歌旗下的DeepMind團(tuán)隊(duì)宣布了一項(xiàng)名為“可微緩存增強(qiáng)”的創(chuàng)新技術(shù),這一技術(shù)旨在優(yōu)化大型語言模型(LLMs)的推理性能,同時(shí)避免大幅增加計(jì)算成本。
在自然語言處理、數(shù)學(xué)運(yùn)算及邏輯推理等領(lǐng)域,大型語言模型已成為解決復(fù)雜問題的關(guān)鍵工具。隨著技術(shù)的不斷進(jìn)步,研究人員致力于提升這些模型的數(shù)據(jù)處理能力,使其能夠生成更精確、更符合上下文的響應(yīng)。然而,隨著模型復(fù)雜度的增加,如何在有限的計(jì)算資源下保持高效運(yùn)行成為一大挑戰(zhàn)。
一個(gè)顯著的問題是,現(xiàn)有的大型語言模型往往難以在不同任務(wù)間進(jìn)行有效的推理,或執(zhí)行超出其預(yù)訓(xùn)練架構(gòu)的計(jì)算。為了提高模型性能,研究人員通常會(huì)嘗試在任務(wù)處理過程中生成中間步驟,但這通常會(huì)導(dǎo)致延遲增加和計(jì)算效率低下。這一限制嚴(yán)重影響了模型執(zhí)行復(fù)雜推理任務(wù)的能力,特別是那些需要長距離依賴關(guān)系或高精度預(yù)測的任務(wù)。
“可微緩存增強(qiáng)”技術(shù)通過引入一個(gè)經(jīng)過訓(xùn)練的協(xié)處理器,以潛在嵌入的方式增強(qiáng)LLMs的鍵值(kv)緩存,從而豐富了模型的內(nèi)部記憶。這一方法的關(guān)鍵在于,保持基礎(chǔ)LLMs不變,同時(shí)異步訓(xùn)練協(xié)處理器。通過這種方式,研究團(tuán)隊(duì)成功地在不犧牲計(jì)算效率的情況下,顯著提升了模型性能。
整個(gè)處理流程分為三個(gè)關(guān)鍵階段:首先,凍結(jié)的LLMs從輸入序列中生成kv緩存;接著,協(xié)處理器利用可訓(xùn)練軟令牌處理這些kv緩存,生成潛在嵌入;最后,增強(qiáng)的kv緩存被反饋回LLMs,以生成更豐富的輸出。這一創(chuàng)新方法不僅簡化了模型處理復(fù)雜任務(wù)的過程,還提高了其準(zhǔn)確性和效率。
在Gemma-2 2B模型上的測試結(jié)果顯示,“可微緩存增強(qiáng)”技術(shù)在多個(gè)基準(zhǔn)測試中均取得了顯著成果。例如,在GSM8K數(shù)據(jù)集上,準(zhǔn)確率提高了10.05%;在MMLU基準(zhǔn)測試中,性能提升了4.70%。該方法還顯著降低了模型在多個(gè)標(biāo)記位置的困惑度,進(jìn)一步證明了其有效性。
DeepMind的這一研究成果為大型語言模型的推理能力增強(qiáng)提供了新的視角和解決方案。通過引入外部協(xié)處理器來增強(qiáng)kv緩存,研究團(tuán)隊(duì)在保持計(jì)算效率的同時(shí),實(shí)現(xiàn)了模型性能的顯著提升,為LLMs處理更復(fù)雜、更具挑戰(zhàn)性的任務(wù)奠定了堅(jiān)實(shí)基礎(chǔ)。