該論文為北京大學(xué)與DeepSeek共同完成,論文提出條件記憶(conditional memory),通過引入可擴(kuò)展的查找記憶結(jié)構(gòu),在等參數(shù)、等算力條件下顯著提升模型在知識調(diào)用、推理、代碼、數(shù)學(xué)等任務(wù)上的表現(xiàn)。
觀點(diǎn)網(wǎng)訊:1月12日晚間,DeepSeek發(fā)布新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可擴(kuò)展查找的條件記憶:大型語言模型稀疏性的新維度)。
據(jù)介紹,該論文為北京大學(xué)與DeepSeek共同完成,合著作者署名中出現(xiàn)梁文鋒。論文提出條件記憶(conditional memory),通過引入可擴(kuò)展的查找記憶結(jié)構(gòu),在等參數(shù)、等算力條件下顯著提升模型在知識調(diào)用、推理、代碼、數(shù)學(xué)等任務(wù)上的表現(xiàn)。
同時,DeepSeek開源相關(guān)記憶模塊Engram。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)由觀點(diǎn)根據(jù)公開信息整理,不構(gòu)成投資建議,使用前請核實(shí)。
審校:勞蓉蓉
