在人工智能快速發展的浪潮中,開源大模型的進步是推動整個生態系發展的關鍵力量。近期,DeepSeek 發布了其最新的模型系列:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。這兩個模型不僅代表了 DeepSeek 在技術上的重大突破,更為開源大模型領域樹立了新的標竿,其性能在多項基準測試中已能與頂尖的閉源模型媲美,甚至在某些方面有所超越。
DeepSeek V3.2 系列:開源模型的新高度
DeepSeek 的願景是將開源模型帶回技術發展的第一梯隊,而 V3.2 系列的發布正是這一願景的有力證明。根據智東西於 2025 年 12 月 2 日的報導,DeepSeek-V3.2 標準版在公開的推理相關基準測試中,其表現已達到 GPT-4 的水準,僅次於 Gemini 3.0-Pro,顯示出其強大的通用人工智能潛力。與此同時,其顯著縮短的輸出長度,更是有效降低了計算開銷和用戶等待時間,提升了實際應用中的用戶體驗。
更為引人注目的是 DeepSeek-V3.2-Speciale 版本。這款長文本增強版本整合了 DeepSeek-Math-V2 的定理證明能力,展現了卓越的指令遵循、數學證明及邏輯驗證能力。在主流的推理基準測試中,其表現與 Gemini 3.0-Pro 不相上下。這意味著,對於需要深度推理和精準邏輯判斷的複雜任務,Speciale 版本能夠提供極為可靠的支援。
>
超越 Kimi-K2-Thinking:開源模型中的領導者
在開源模型領域,DeepSeek-V3.2 的表現同樣令人矚目。在權威的大模型評估平台 Artificial Analysis 的數據顯示,在 DeepSeek-V3.2 加入之前,業界智能水平最高的開源模型是 Kimi-K2-Thinking。然而,在相同的測試設置和公開的基準測試結果對比中,DeepSeek-V3.2 展現出了更優越的性能。
DeepSeek-V3.2 的一個關鍵創新在於,它是 DeepSeek 首個將“思考”整合進工具使用,並支援在思考與非思考模式下均能調用工具的模型。這極大地增強了模型在複雜任務中的靈活性和應用場景。在代理(Agent)任務的評估中,DeepSeek-V3.2 達到了開源模型中的最高水準,顯著縮小了開源與閉源模型之間的差距。值得一提的是,V3.2 並未針對測試集中的工具進行專門訓練,這表明其具備強大的泛化能力,能夠在真實世界的應用場景中表現出色。
DeepSeek V3.2 – Speciale 的輝煌成就
DeepSeek-V3.2-Speciale 的潛力在其獲獎經歷中得到了最佳體現。該模型在 2025 年的國際數學奧林匹亞(IMO)、中國數學奧林匹亞(CMO)、國際大學生程序設計競賽(ICPC)世界總決賽以及國際資訊學奧林匹亞(IOI)中均獲得了金牌。尤其是在 ICPC 和 IOI 競賽中,其成績分別達到了人類參賽者的第二名和第十名水準,這充分證明了其在極端複雜任務上的超越性表現。
儘管 Speciale 版本在複雜任務上表現極為出色,但其同時也消耗更多的 Token 並產生更高的成本。目前,Speciale 版本僅限於研究用途,不支援工具調用,並且尚未針對日常對話和寫作任務進行專門優化。
DeepSeek 剖析:開源與閉源模型差距擴大的三大原因
DeepSeek 團隊深入探討了為何在過去幾個月中,開源模型與專有模型之間的差距似乎在不斷擴大。他們認為,有三大關鍵因素限制了開源模型在複雜任務上的表現:
- 架構限制: 傳統的開源模型大多依賴於標準的注意力機制,這種機制在處理長序列時效率低下,嚴重影響了大規模部署和有效後訓練階段的進行。
- 資源投入不足: 在後訓練階段,開源模型在計算力投入上明顯不足,這直接限制了它們在高難度任務上的性能上限。
- 泛化與指令遵循能力滯後: 在代理應用場景下,開源模型相較於閉源模型,在泛化能力和指令遵循能力方面存在顯著差距,這阻礙了它們在實際部署中的應用。
為了解決這些問題,DeepSeek 採取了一系列創新的技術策略。
DSA:讓模型計算更智慧的稀疏注意力機制
DeepSeek-V3.2 的核心架構基於其前身 DeepSeek-V3.1 系列的最終版本,並引入了 DSA(DeepSeek Sparse Attention)這一創新的稀疏注意力機制。傳統的注意力機制在處理長文本時,需要計算當前 Token 與先前所有 Token 的關係,這導致計算複雜度隨著文本長度呈二次方增長,效率低下。DSA 的核心思想是透過一個「閃電索引器」(Lightning Indexer)快速識別出與當前 Token 最相關的關鍵 Token,然後僅對這些 Token 進行詳細分析。這種機制將模型的注意力複雜度從二次方降低到近似線性,顯著提高了長文本處理的效率。一項關鍵的洞察來自官方報告:DSA 成功將模型注意力複雜度從二次方降低至近似線性增長,這意味著隨著序列長度的增加,其效率提升效果將更加顯著。
DeepSeek-V3.2 的訓練始於 DeepSeek-V3.1-Terminus 的基礎檢查點,並將上下文長度擴展至 128K。在持續預訓練過程中,模型先經過「密集預熱」階段,在此階段僅訓練索引器以模仿傳統注意力的分佈;隨後進入稀疏訓練階段,模型整體架構被優化以適應稀疏結構。這種循序漸進的遷移策略確保了模型在引入稀疏注意力後,性能不會顯著下降。
在能力評估上,DeepSeek-V3.2 在標準基準測試、人類偏好評估以及多項長上下文任務中,均展現出與其前輩相當甚至更優的結果。Elo 分數、AA-LCR 和 Fiction.liveBench 等測試均表明,引入稀疏注意力不僅沒有犧牲模型質量,反而為長序列推理帶來了明顯優勢。DeepSeek 透過工程優化,在 H800 GPU 上實現了顯著的端到端加速,這直接轉化為更快的響應時間和更低的運行成本。
>
專家蒸餾與混合強化學習:締造全能型模型
DeepSeek-V3.2 的後訓練階段,是將一個大規模但未經精煉的基礎模型,塑造成具備推理、工具使用、代理任務和對齊能力的最終版本的關鍵步驟。該階段採用了專家蒸餾和混合強化學習的結合方法,以實現跨領域的穩定且均衡的能力提升。
專家蒸餾的核心理念是讓不同的專業任務由專門的「專家模型」學習,再將這些專家的能力聚合到一個統一的大模型中。DeepSeek 團隊訓練了六種專業模型的「專家」,分別涵蓋數學、編程、邏輯推理、通用代理、代理編程和代理搜索。這些專家模型透過大規模強化學習進行增強,確保在各自領域達到高水準。值得注意的是,DeepSeek 投入了超過 10% 的預訓練成本用於後訓練階段的計算力,這一比例在行業內相對罕見,這為解鎖模型的高級能力提供了堅實的資源保障。
在混合強化學習階段,DeepSeek 採用了 GRPO(Group Relative Policy Optimization)算法,並將推理、代理任務和人類對齊的訓練整合在同一階段,有效避免了多階段訓練中常見的「災難性遺忘」問題。這種方法確保了模型在不同任務類型之間不會產生偏見,並能維持整體能力的穩定平衡。
為了處理「思考模式」與「工具使用」的結合,DeepSeek 設計了一種新的上下文管理機制:僅在出現新的用戶訊息時才清除思考軌跡,而工具輸出的添加不會導致推理內容的丟失。這確保了模型能夠基於現有的推理來完成後續動作。透過這些精巧的設計,DeepSeek-V3.2 系列模型不僅在技術層面達到了新的高度,更在實際應用中展現了卓越的潛力,為開源大模型社區注入了新的活力。
立即行動,探索 AI 的無限可能
DeepSeek V3.2 系列模型的發布,標誌著開源大模型在追求頂尖性能的道路上邁出了堅實的一大步。無論您是開發者、研究人員,還是對 AI 充滿熱情的探索者,都應該關注這一領域的最新進展。如果您希望深入了解 AI 的最新動態、創業趨勢以及融資資訊,不要錯過這個絕佳的機會。
立即加入🚀🔥Mentalok 慢得樂 Vibe-Coding & Tech Startup創業課程官方頻道,取得更多即時AI,創業及Funding資訊。




