工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 135 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
透過 ReasoningBank 實現代理程式的自適應學習,進行模式識別、策略優化與持續改進。
透過本地 ComfyUI 實例生成高品質圖像。適合需要隱私保護、專業 AI 圖像合成與自訂工作流的開發者。
恢復暫停的實驗循環,透過還原分支內容、載入配置、讀取結果歷史記錄及識別優化模式,協助您繼續進行迭代與研究。
掌握先進的提示工程技術,以最大化生產環境中大型語言模型(LLM)的性能、可靠性和可控性。
自動化 lading 效能最佳化的提交流程,包含分支管理、git 提交與 Pull Request 建立。
透過管理插件來自我修改 Milady 代理。編輯程式碼、重建並重新啟動運行環境,以開發新功能或本地優化代理工作流程。
透過可配置的 YAML 模板將內容轉換為特定的語音配置、語氣或風格,以確保品牌與敘事輸出的一致性。
AReaL 分散式訓練除錯指南,涵蓋 FSDP2/TP/CP/EP 環境下的掛起、NCCL 錯誤、記憶體不足與數值一致性問題。
為構建 Claude API 生產級應用提供專家指導,涵蓋 SDK 使用、提示詞緩存、批量處理、串流傳輸、工具調用及成本優化策略。
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
一套專業工具集,用於在 Claude Code 環境中審核、評估、切分文件及構建生產級 RAG 管線。