stable-baselines3

簡介

Stable Baselines3 (SB3) 是一個基於 PyTorch 的強大強化學習庫，提供包括 PPO、SAC、DQN、TD3、DDPG 和 A2C 等熱門算法的可靠實作。此技能專為從事序列決策任務、機器人技術或複雜環境模擬的研究人員和工程師所設計。它允許使用者透過類 scikit-learn 的簡化 API 快速進行智能體訓練原型開發，同時保持深度學習研究所需的靈活性。本技能涵蓋強化學習的完整生命週期，從初始環境設置和策略選擇，到進階訓練診斷與模型持久化。

完整支援熱門算法：PPO、A2C（通用型）、SAC、TD3（連續控制）、DQN（離散型）以及 HER（目標條件型）。
精簡的自定義 Gymnasium 相容環境建立流程，附帶內建驗證工具以檢查觀察值與動作空間規範。
進階訓練功能，包括向量化環境 (DummyVecEnv, SubprocVecEnv)，可最大化 CPU 利用率並進行平行模擬。
全面的回調函數管理系統，用於監控訓練指標、設定模型存檔點、依據獎勵閾值實作提前停止，以及執行自定義訓練邏輯。
標準化的模型持久化機制，用於儲存/載入智能體、歸一化統計數據，以及與 PyTorch 狀態字典互動。
用於量化模型效能的評估工具，可測量平均獎勵及標準差，並支援確定性評估。
優先選擇 PPO/A2C 應對多重處理需求與通用穩定性，而在連續控制應用中應選用 SAC/TD3 以提高樣本效率。
在開始長時間訓練之前，請務必使用 check_env() 以確保自定義環境符合所有 Gymnasium 限制。
處理向量化環境時，請注意 step() 的回傳值與單一環境邏輯不同（回傳 4 元組）；終端觀察值需透過 info 字典存取。
model.save() 不會儲存回放緩衝區 (replay buffer) 以節省磁碟空間；請確保透過類別方法而非實例方法正確載入模型。
當對離線策略算法使用多個環境時，建議將 gradient_steps 設為 -1，以維持樣本效率與實際運行時間之間的平衡。

創業課程

網上課程

實體課程

簡介

倉庫統計