DeepSeek-R1模型訓練方法發布
2025-09-18 12:21:45 來源:科技日報
DeepSeek-AI團隊梁文鋒及其同事17日在《自然》雜志上發表了開源人工智能(AI)模型DeepSeek-R1所采用的大規模推理模型訓練方法。研究表明,大語言模型(LLM)的推理能力可通過純強化學習來提升,從而減少增強性能所需的人類輸入工作量。訓練出的模型在數學、編程競賽和STEM領域研究生水平問題等任務上,比傳統訓練的LLM表現更好。
DeepSeek-R1包含一個在人類監督下的深入訓練階段,以優化推理過程。梁文鋒團隊報告稱,該模型使用了強化學習而非人類示例來開發推理步驟,減少了訓練成本和復雜性。DeepSeek-R1在被展示優質的問題解決案例后,會獲得一個模板來產生推理過程,即這一模型通過解決問題獲得獎勵,從而強化學習效果。團隊總結說,未來研究可以聚焦優化獎勵過程,以確保推理和任務結果更可靠。
在評估AI表現的數學基準測試中,DeepSeek-R1-Zero和DeepSeek-R1得分分別為77.9% 和 79.8%,在編程競賽及研究生水平的生物學、物理和化學問題上同樣表現優異。
關鍵詞:
相關閱讀
-
DeepSeek-R1模型訓練方法發布
DeepSeek-AI團隊梁文鋒及其同事17日在《自然》雜志上發表了開源人工... -
國際科技園及創新區域協會世界大會在京開幕
17日,國際科技園及創新區域協會(IASP)2025年世界大會在北京開幕... -
商務部、工信部等9部門發文擴大服務消費
9月16日,商務部、工信部等9部門聯合發布《關于擴大服務消費的若干... -
月球熱演化研究獲重要進展 內生月震引...
記者從中山大學了解到,該校大氣科學學院肖智勇團隊聯合遙感科學與... -
我國工業互聯網應用加速落地
 工信部最新數據顯示,目前我國具有一定影響力的工業互聯網平... -
首個行業標準預發布 智算中心建設邁向...
 9月17日在上海舉行的首屆AIDC產業發展大會上,預發布了業界首...
- DeepSeek-R1模型訓練方法發布2025-09-18
- 國際科技園及創新區域協會世界大會在京開幕2025-09-18
- 商務部、工信部等9部門發文擴大服務消費2025-09-18
- 月球熱演化研究獲重要進展 內生月震引發新2025-09-18
- 我國工業互聯網應用加速落地2025-09-18
- 首個行業標準預發布 智算中心建設邁向規范2025-09-18
- 國家網信辦擬細化未成年人用戶數量巨大的網2025-09-18
- 讓傳感器動起來 我國科研團隊研發出腦機接2025-09-18
- 半導體等熱門賽道公司成機構調研心頭好2025-09-18
- 江豐電子:二十年堅守以創新鍛造內“芯”2025-09-18
- 紫燕食品2025上半年業績承壓 多重挑戰凸顯2025-09-18
- 匯源果汁發聲明 爆稱大股東私刻公章2025-09-18
- 資本密集加持 無人車物流賽道火熱2025-09-18
- 尚高生命科學實現技術突破 高端磷脂市場迎2025-09-18
- 文化中國行|探尋青銅歲月“痕跡” 看非遺2025-09-17
- 第二批城市一刻鐘便民生活圈全域推進先行區2025-09-17
- 福建長汀:林下生“金” 綠富共贏2025-09-17
- 鄉村教師的“日記”2025-09-17
- 大山深處的獨臂教師2025-09-17
- 外賣小哥冒雨救下傷者 網友:凡人微光溫暖2025-09-17
- 中國首次舉辦全國性殘疾人攀巖競賽2025-09-17
- 奮力向上!中國首次舉辦全國性殘疾人攀巖競2025-09-17
- 山西蒲縣:碩果盈枝品質優 科技賦能助振興2025-09-17
- 一片紅薯田,收獲紅火“甜日子”2025-09-17
- 在“無陪護”病房里走進醫療護理員的工作日2025-09-17
- 記者手記:從一棵“網紅樹”看見福州對樹的2025-09-17
- 河南洛陽:大力發展養老服務事業 讓“養老2025-09-17
- 中國荒漠化治理獲國際贊譽2025-09-17
- 河北:“太行山居”民宿集群激活山區活力2025-09-17
- 鄉村體育越來越旺2025-09-17