在AI界掀起波瀾的DeepSeek V3模型,近日正式發(fā)布并引發(fā)了技術圈的狂熱討論。這款新版本不僅延續(xù)了其前身的性價比優(yōu)勢,更是直接采取了完全開源的策略,將訓練細節(jié)詳盡地呈現(xiàn)在53頁的論文中,展現(xiàn)出前所未有的透明度。
對于DeepSeek V3,QLoRA一作的評價簡潔而精準:優(yōu)雅。該模型作為一個擁有671B參數(shù)的MoE模型,在14.8T的高質(zhì)量token數(shù)據(jù)上進行了預訓練,并激活了37B的參數(shù)。在多項評測中,它展現(xiàn)了卓越的性能,超越了如Llama 3.1 405B等開源模型,甚至能與GPT-4o、Claude 3.5 Sonnet等頂尖閉源模型一較高下。
meta科學家田淵棟同樣對DeepSeek V3的訓練效率表示驚嘆,認為這是一項非常偉大的工作。據(jù)悉,DeepSeek V3的整個訓練過程僅用了不到280萬個GPU小時,與Llama 3 405B的3080萬GPU小時相比,效率提升顯著。從成本上來看,訓練671B的DeepSeek V3僅花費了557.6萬美元,而訓練7B的Llama 2則需要76萬美元。
除了性能和價格優(yōu)勢外,DeepSeek V3在實際應用中也表現(xiàn)出色。其生成速度提升了3倍,每秒能生成60個tokens。同時,其API價格也相對親民,每百萬輸入tokens的價格為0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens的價格為8元。這一價格策略使得DeepSeek V3在性價比方面更具競爭力。
為了慶祝新模型的發(fā)布,DeepSeek還推出了45天的優(yōu)惠價格體驗期。在2025年2月8日之前,所有用戶使用DeepSeek V3 API的價格將分別下降80%(輸入命中)、50%(輸入未命中)和75%(輸出)。這一優(yōu)惠活動無疑將進一步吸引用戶嘗試和體驗DeepSeek V3。
在技術層面,DeepSeek V3也帶來了諸多創(chuàng)新。官方此次一同開源了原生FP8權重,并提供了從FP8到BF16的轉換腳本。SGLang和LMDeploy這兩個框架已支持FP8推理,而TensorRT-LLM和MindIE則支持BF16推理。這些技術細節(jié)的優(yōu)化使得DeepSeek V3在性能和效率上都有了顯著提升。
在實測中,DeepSeek V3也展現(xiàn)出了強大的能力。首位全職提示詞工程師Riley Goodside設計的一道關于模型版本理解的題目中,DeepSeek V3完全答對,而ChatGPT和Grok等模型則出現(xiàn)了錯誤。DeepSeek V3還能“詭異”地理解整個項目,只需開發(fā)者告訴它最終目標是什么。這些實測結果進一步證明了DeepSeek V3的卓越性能和實用性。
DeepSeek V3的成功離不開其背后的團隊在算法、框架和硬件方面的協(xié)同優(yōu)化。通過創(chuàng)新的負載均衡策略和訓練目標、FP8混合精度訓練框架以及高效的跨節(jié)點通信算法等技術手段,DeepSeek團隊成功地降低了訓練成本并提高了訓練效率。這些專業(yè)知識的積累和實踐經(jīng)驗使得DeepSeek V3能夠在AI界脫穎而出。