更新后的文章進(jìn)一步詳細(xì)展示了LLM(大語(yǔ)言模型)的推理能力可以通過(guò)純粹的強(qiáng)化學(xué)習(xí)(RL)來(lái)訓(xùn)練。
觀點(diǎn)網(wǎng)訊:1月8日消息,DeepSeek近日更新了關(guān)于R1模型的論文,文章篇幅從原本的約20頁(yè)擴(kuò)展至86頁(yè)。
更新后的文章進(jìn)一步詳細(xì)展示了LLM(大語(yǔ)言模型)的推理能力可以通過(guò)純粹的強(qiáng)化學(xué)習(xí)(RL)來(lái)訓(xùn)練,且訓(xùn)練出的模型在數(shù)學(xué)、編碼競(jìng)賽和STEM領(lǐng)域等可驗(yàn)證任務(wù)上取得了優(yōu)異的成績(jī)。
同時(shí),該方式在訓(xùn)練成本上也極具競(jìng)爭(zhēng)力,DeepSeek-R1-Zero的訓(xùn)練僅耗時(shí)198小時(shí)。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)由觀點(diǎn)根據(jù)公開(kāi)信息整理,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。
審校:徐耀輝
