Claude Sonnet 4.5 隆重登場：重新定義 AI 程式碼生成與任務執行能力

在快速演進的 AI 領域，Anthropic 於 2025 年 9 月 29 日發布了其最新的旗艦模型——Claude Sonnet 4.5。這項重大發布不僅標誌著 Anthropic 在人工智慧技術上的新里程碑，更為全球開發者和使用者開啟了全新的可能性。Claude Sonnet 4.5 被譽為「全球最佳程式碼模型」，它在程式碼生成、複雜代理建構、電腦操作、推理及數學等多個關鍵領域展現出前所未有的強勁性能，預示著人機協作新時代的來臨。

Claude Sonnet 4.5：不僅是程式碼，更是效率的革新

程式碼已滲透到我們日常使用的每一款應用程式、試算表和軟體工具中。因此，能夠有效地運用這些工具並深入思考複雜問題，已成為現代工作不可或缺的能力。Claude Sonnet 4.5 的出現，正是為了滿足這一需求而生。它能夠理解並操作程式碼，讓使用者能夠更輕鬆地與數位世界互動，並解決更艱鉅的挑戰。

Anthropic 在這次發布中，不僅推出了 Claude Sonnet 4.5 模型本身，更帶來了一系列令人振奮的產品升級：

Claude Code 的重大更新： 為了回應使用者最殷切的期盼，Claude Code 現已加入「檢查點」功能，使用者可以隨時儲存進度，並能瞬間回溯到之前的狀態。此外，終端介面也進行了煥然一新的設計，並推出了原生 VS Code 擴充功能，大幅提升了開發者在熟悉環境中的工作體驗。
API 的增強功能： Claude API 新增了「上下文編輯」功能和「記憶體工具」，這使得代理（agents）能夠更長時間地運行，並處理更為龐雜的任務，這對於需要深度分析和長時間運行的 AI 應用至關重要。
Claude 應用程式的整合： 在 Claude 的應用程式中，現在可以直接進行程式碼執行，並支援檔案創建，例如產生試算表、簡報和文件。這意味著使用者可以在對話的過程中，直接完成多種形式的內容產出。
Claude for Chrome 擴充功能的普及： 先前推出並廣受好評的 Claude for Chrome 擴充功能，現在也開放給上個月加入候補名單的 Max 用戶使用。

更令人興奮的是，Anthropic 將其開發 Claude Code 的核心基礎設施開放給廣大開發者，並稱之為「Claude Agent SDK」。這套 SDK 賦予了開發者構建最前沿產品的能力，讓他們能夠充分發揮 AI 的潛力，解決各種不同領域的難題。

性能指標：見證 Claude Sonnet 4.5 的躍升

Claude Sonnet 4.5 在多項權威評測中取得了令人矚目的成績，充分證明了其在各個維度的卓越表現。在 SWE-bench Verified 這一衡量真實世界軟體編寫能力的評估中，Claude Sonnet 4.5 展現了其頂尖的程式碼生成能力。實驗觀察顯示，該模型能夠在複雜、多步驟的任務中，長時間（超過 30 小時）保持專注，這對於處理大型專案至關重要。

電腦操作能力是另一個顯著的提升領域。在 OSWorld 基準測試中，這是一個專門評估 AI 模型在真實電腦任務中表現的指標，Claude Sonnet 4.5 的得分高達 61.4%。值得注意的是，僅在四個月前，其前代模型 Sonnet 4 的得分僅為 42.2%，這顯示了 Sonnet 4.5 在電腦使用方面的巨大飛躍。透過 Claude for Chrome 擴充功能，這些升級的電腦操作能力得以在實際應用中展現，例如在瀏覽器中導航、填寫試算表以及完成各種線上任務。

此外，Claude Sonnet 4.5 在推理和數學能力上也表現出色。根據 Anthropic 的評估，專家們在金融、法律、醫學和 STEM 領域的評估中發現，與 Opus 4.1 等早期模型相比，Sonnet 4.5 在領域特定的知識和推理能力上有顯著提升。

真實客戶回饋印證卓越表現：

Michael Truell（Cursor CEO）指出：「我們看到了 Claude Sonnet 4.5 頂級的程式碼表現，在處理長期任務時有了顯著的改進。這也再次證實了為何許多使用 Cursor 的開發者選擇 Claude 來解決他們最複雜的問題。」
Nidhi Aggarwal（Hai security agents CPO）表示：「Claude Sonnet 4.5 將我們 Hai 安全代理的平均漏洞識別時間縮短了 44%，同時將準確度提高了 25%，幫助我們自信地降低企業風險。」（源自 Anthropic 官方新聞稿，此為對安全性代理的具體成效數據。）
Eric Wendelin（GenAI for Developer Productivity Tech Lead）讚揚道：「Claude Sonnet 4.5 在軟體開發任務上表現卓越，它學習我們的程式碼模式以提供精確的實現。從除錯到架構設計，它都展現了深厚的上下文理解能力，徹底改變了我們的開發速度。」

關鍵洞察：

對長任務的專注能力： Claude Sonnet 4.5 能夠在複雜、多步驟的任務中保持超過 30 小時的專注，這是一項關鍵的進展，尤其對於需要長時間運行的 AI 應用，如複雜的軟體開發或模擬。
電腦操作能力的質飛躍： 在 OSWorld 基準測試中，Claude Sonnet 4.5 的得分從前代的 42.2% 躍升至 61.4%，顯示其在模擬真實電腦互動和任務執行方面取得了重大突破。
安全性代理的效率提升： 根據 Nidhi Aggarwal 的說法，Claude Sonnet 4.5 顯著提升了安全代理的效能，將平均漏洞識別時間縮短了 44%，準確度則提高了 25%，這對於企業級的資訊安全至關重要。

最先進的對齊模型：安全與可靠的承諾

除了在能力上的飛躍，Claude Sonnet 4.5 同時也是 Anthropic 目前為止「最對齊」（most aligned）的先進模型。Anthropic 在模型的安全性與對齊方面投入了大量努力，顯著減少了過去模型中可能出現的令人擔憂的行為，例如諂媚、欺騙、權力尋求以及助長妄想性思維等。對於代理和電腦使用能力，模型在抵禦提示注入攻擊方面也取得了重大進展，這是使用這些能力時最嚴重的風險之一。

Claude Sonnet 4.5 在 OSWorld 基準測試中的表現。 — Claude Sonnet 4.5 在 OSWorld 基準測試中取得了顯著進步。

Claude Sonnet 4.5 在 AI 安全等級 3（ASL-3）保護下發布，這套框架確保模型的能力與適當的保障措施相匹配。這些措施包括過濾器（classifiers），旨在偵測潛在的危險輸入和輸出，特別是與化學、生物、放射性及核（CBRN）武器相關的內容。儘管這些過濾器偶爾可能會誤判正常內容，但 Anthropic 已努力減少這類誤報，其數量自最初發布以來已減少了十倍，自 Claude Opus 4 發布以來也減少了兩倍。

Claude Agent SDK：賦予開發者構建未來

Anthropic 在過去六個月中持續更新 Claude Code，積累了豐富的 AI 代理建構經驗。他們解決了代理在長期任務中如何管理記憶體、如何設計平衡自主性與使用者控制權的權限系統，以及多個子代理如何協調以達成共同目標等複雜問題。如今，這套強大的基礎設施——Claude Agent SDK——已開放給所有開發者使用。

Claude Agent SDK 採用了與 Claude Code 相同的底層架構，但其效益不僅限於編碼，更能應用於廣泛的任務。開發者可以利用它來構建自己的 AI 代理，解決各種挑戰。正如 Anthropic 所言：「我們創建 Claude Code 是因為當時我們想要的工具還不存在。Agent SDK 為你提供了相同的基礎，讓你能夠針對你正在解決的任何問題，構建同樣強大的解決方案。」

立即體驗，探索無限可能

Claude Sonnet 4.5 已在全球範圍內可用。對於開發者而言，可透過 Claude API 直接調用 claude-sonnet-4-5。請注意，定價策略與 Claude Sonnet 4 保持一致，每百萬 tokens 的價格為 $3/$15。

無論您是透過 Claude 應用程式、API，或是 Claude Code 使用者，都建議升級至 Claude Sonnet 4.5。它是一個即插即用的替換品，能在相同的價格下提供顯著的效能提升。

Claude Code 的更新已向所有用戶開放。Claude 開發者平台更新，包括 Claude Agent SDK，也向所有開發者開放。在 Claude 應用程式中，程式碼執行和檔案創建功能已適用於所有付費方案。

立即行動，把握 AI 發展的脈動！

立即加入🚀🔥Mentalok 慢得樂 Vibe-Coding & Tech Startup創業課程官方頻道，取得更多即時AI，創業及Funding資訊。

想深入了解 Claude Sonnet 4.5 的技術細節、評估結果、系統卡、模型頁面及相關文件，請參閱 Anthropic 官方網站。欲了解更多關於資訊安全和 AI 發展的工程洞見，也可瀏覽其工程文章和研究文章。