Claude Sonnet 4.5 隆重登場:重新定義 AI 程式碼生成與任務執行能力

在快速演進的 AI 領域,Anthropic 於 2025 年 9 月 29 日發布了其最新的旗艦模型——Claude Sonnet 4.5。這項重大發布不僅標誌著 Anthropic 在人工智慧技術上的新里程碑,更為全球開發者和使用者開啟了全新的可能性。Claude Sonnet 4.5 被譽為「全球最佳程式碼模型」,它在程式碼生成、複雜代理建構、電腦操作、推理及數學等多個關鍵領域展現出前所未有的強勁性能,預示著人機協作新時代的來臨。

Claude Sonnet 4.5:不僅是程式碼,更是效率的革新

程式碼已滲透到我們日常使用的每一款應用程式、試算表和軟體工具中。因此,能夠有效地運用這些工具並深入思考複雜問題,已成為現代工作不可或缺的能力。Claude Sonnet 4.5 的出現,正是為了滿足這一需求而生。它能夠理解並操作程式碼,讓使用者能夠更輕鬆地與數位世界互動,並解決更艱鉅的挑戰。

Anthropic 在這次發布中,不僅推出了 Claude Sonnet 4.5 模型本身,更帶來了一系列令人振奮的產品升級:

  • Claude Code 的重大更新: 為了回應使用者最殷切的期盼,Claude Code 現已加入「檢查點」功能,使用者可以隨時儲存進度,並能瞬間回溯到之前的狀態。此外,終端介面也進行了煥然一新的設計,並推出了原生 VS Code 擴充功能,大幅提升了開發者在熟悉環境中的工作體驗。
  • API 的增強功能: Claude API 新增了「上下文編輯」功能和「記憶體工具」,這使得代理(agents)能夠更長時間地運行,並處理更為龐雜的任務,這對於需要深度分析和長時間運行的 AI 應用至關重要。
  • Claude 應用程式的整合: 在 Claude 的應用程式中,現在可以直接進行程式碼執行,並支援檔案創建,例如產生試算表、簡報和文件。這意味著使用者可以在對話的過程中,直接完成多種形式的內容產出。
  • Claude for Chrome 擴充功能的普及: 先前推出並廣受好評的 Claude for Chrome 擴充功能,現在也開放給上個月加入候補名單的 Max 用戶使用。

更令人興奮的是,Anthropic 將其開發 Claude Code 的核心基礎設施開放給廣大開發者,並稱之為「Claude Agent SDK」。這套 SDK 賦予了開發者構建最前沿產品的能力,讓他們能夠充分發揮 AI 的潛力,解決各種不同領域的難題。

性能指標:見證 Claude Sonnet 4.5 的躍升

Claude Sonnet 4.5 在多項權威評測中取得了令人矚目的成績,充分證明了其在各個維度的卓越表現。在 SWE-bench Verified 這一衡量真實世界軟體編寫能力的評估中,Claude Sonnet 4.5 展現了其頂尖的程式碼生成能力。實驗觀察顯示,該模型能夠在複雜、多步驟的任務中,長時間(超過 30 小時)保持專注,這對於處理大型專案至關重要。

電腦操作能力是另一個顯著的提升領域。在 OSWorld 基準測試中,這是一個專門評估 AI 模型在真實電腦任務中表現的指標,Claude Sonnet 4.5 的得分高達 61.4%。值得注意的是,僅在四個月前,其前代模型 Sonnet 4 的得分僅為 42.2%,這顯示了 Sonnet 4.5 在電腦使用方面的巨大飛躍。透過 Claude for Chrome 擴充功能,這些升級的電腦操作能力得以在實際應用中展現,例如在瀏覽器中導航、填寫試算表以及完成各種線上任務。

此外,Claude Sonnet 4.5 在推理和數學能力上也表現出色。根據 Anthropic 的評估,專家們在金融、法律、醫學和 STEM 領域的評估中發現,與 Opus 4.1 等早期模型相比,Sonnet 4.5 在領域特定的知識和推理能力上有顯著提升。

真實客戶回饋印證卓越表現:

  • Michael Truell(Cursor CEO)指出:「我們看到了 Claude Sonnet 4.5 頂級的程式碼表現,在處理長期任務時有了顯著的改進。這也再次證實了為何許多使用 Cursor 的開發者選擇 Claude 來解決他們最複雜的問題。」
  • Nidhi Aggarwal(Hai security agents CPO)表示:「Claude Sonnet 4.5 將我們 Hai 安全代理的平均漏洞識別時間縮短了 44%,同時將準確度提高了 25%,幫助我們自信地降低企業風險。」(源自 Anthropic 官方新聞稿,此為對安全性代理的具體成效數據。)
  • Eric Wendelin(GenAI for Developer Productivity Tech Lead)讚揚道:「Claude Sonnet 4.5 在軟體開發任務上表現卓越,它學習我們的程式碼模式以提供精確的實現。從除錯到架構設計,它都展現了深厚的上下文理解能力,徹底改變了我們的開發速度。」

關鍵洞察:

  1. 對長任務的專注能力: Claude Sonnet 4.5 能夠在複雜、多步驟的任務中保持超過 30 小時的專注,這是一項關鍵的進展,尤其對於需要長時間運行的 AI 應用,如複雜的軟體開發或模擬。
  2. 電腦操作能力的質飛躍: 在 OSWorld 基準測試中,Claude Sonnet 4.5 的得分從前代的 42.2% 躍升至 61.4%,顯示其在模擬真實電腦互動和任務執行方面取得了重大突破。
  3. 安全性代理的效率提升: 根據 Nidhi Aggarwal 的說法,Claude Sonnet 4.5 顯著提升了安全代理的效能,將平均漏洞識別時間縮短了 44%,準確度則提高了 25%,這對於企業級的資訊安全至關重要。

最先進的對齊模型:安全與可靠的承諾

除了在能力上的飛躍,Claude Sonnet 4.5 同時也是 Anthropic 目前為止「最對齊」(most aligned)的先進模型。Anthropic 在模型的安全性與對齊方面投入了大量努力,顯著減少了過去模型中可能出現的令人擔憂的行為,例如諂媚、欺騙、權力尋求以及助長妄想性思維等。對於代理和電腦使用能力,模型在抵禦提示注入攻擊方面也取得了重大進展,這是使用這些能力時最嚴重的風險之一。

Claude Sonnet 4.5 在 OSWorld 基準測試中的表現。
Claude Sonnet 4.5 在 OSWorld 基準測試中取得了顯著進步。

Claude Sonnet 4.5 在 AI 安全等級 3(ASL-3)保護下發布,這套框架確保模型的能力與適當的保障措施相匹配。這些措施包括過濾器(classifiers),旨在偵測潛在的危險輸入和輸出,特別是與化學、生物、放射性及核(CBRN)武器相關的內容。儘管這些過濾器偶爾可能會誤判正常內容,但 Anthropic 已努力減少這類誤報,其數量自最初發布以來已減少了十倍,自 Claude Opus 4 發布以來也減少了兩倍。

Claude Agent SDK:賦予開發者構建未來

Anthropic 在過去六個月中持續更新 Claude Code,積累了豐富的 AI 代理建構經驗。他們解決了代理在長期任務中如何管理記憶體、如何設計平衡自主性與使用者控制權的權限系統,以及多個子代理如何協調以達成共同目標等複雜問題。如今,這套強大的基礎設施——Claude Agent SDK——已開放給所有開發者使用。

Claude Agent SDK 採用了與 Claude Code 相同的底層架構,但其效益不僅限於編碼,更能應用於廣泛的任務。開發者可以利用它來構建自己的 AI 代理,解決各種挑戰。正如 Anthropic 所言:「我們創建 Claude Code 是因為當時我們想要的工具還不存在。Agent SDK 為你提供了相同的基礎,讓你能夠針對你正在解決的任何問題,構建同樣強大的解決方案。」

立即體驗,探索無限可能

Claude Sonnet 4.5 已在全球範圍內可用。對於開發者而言,可透過 Claude API 直接調用 claude-sonnet-4-5。請注意,定價策略與 Claude Sonnet 4 保持一致,每百萬 tokens 的價格為 $3/$15。

無論您是透過 Claude 應用程式、API,或是 Claude Code 使用者,都建議升級至 Claude Sonnet 4.5。它是一個即插即用的替換品,能在相同的價格下提供顯著的效能提升。

Claude Code 的更新已向所有用戶開放。Claude 開發者平台更新,包括 Claude Agent SDK,也向所有開發者開放。在 Claude 應用程式中,程式碼執行和檔案創建功能已適用於所有付費方案。

立即行動,把握 AI 發展的脈動!

立即加入🚀🔥Mentalok 慢得樂 Vibe-Coding & Tech Startup創業課程官方頻道,取得更多即時AI,創業及Funding資訊。

想深入了解 Claude Sonnet 4.5 的技術細節、評估結果、系統卡、模型頁面及相關文件,請參閱 Anthropic 官方網站。欲了解更多關於資訊安全和 AI 發展的工程洞見,也可瀏覽其工程文章和研究文章。

Claude Sonnet 4.5 系統卡中的安全與對齊評估摘要。
模型在安全性與對齊方面的表現是其核心優勢之一。

Related Articles

Python 入門必備:認識 IDLE 整合式開發環境

本文深入介紹 Python 的內建開發環境 IDLE,從基礎操作、實用功能到進階技巧,幫助初學者快速上手。了解 IDLE 如何透過語法高亮、程式碼提示等功能,大幅提升程式撰寫效率與除錯能力。
Read more
Tinyform 是一款免費且功能強大的表單建立工具,讓用戶能輕鬆設計出兼具智慧與彈性的表單,並無縫整合多種第三方應用程式,有效提升數據收集與管理效率。
許多全球網站進入中國市場時面臨速度慢、內容缺失的挑戰。Chinafy作為領先的網站性能平台,透過獨特的技術解決方案,幫助企業快速、完整且可靠地提升網站體驗,進而擴展中國業務。
zh_HKChinese