工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 234 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
根據研究敘述、實驗數據與審稿結論,自動生成結構化的學術論文大綱。
P9 技術領隊模式:透過任務提示(六要素)管理 P8 代理團隊,無需親自撰寫程式碼。負責專案管理、任務拆解,並協調 3 個以上平行代理執行任務。
從研究文件、技術論文和架構設計檔案中,系統性地萃取關鍵見解、決策紀錄與技術限制。
用於將任務分發給專業背景代理的智能編排系統,具備基於性能的路由與執行追蹤功能。
設計與構建高品質 AI Agent Skills 的專家顧問。透過發現、架構與製作階段的結構化引導,確保您建立的技能具備高度一致性、可組合性與執行效能。
公眾號文章自動化寫作流程。包含資料搜索、爆款標題生成、文章撰寫與排版優化功能。
引導式統計分析,包含測試選擇、假設檢定、效能分析及 APA 格式報告,適用於學術與實驗研究。
掌握 KPI 儀表板設計,利用成熟的指標框架、SMART 目標與層級模式,協助您從高階決策到營運監控,全面提升業務績效。
AI 驅動的 GitHub Actions 自動化,具備群體智慧工作流編排、智慧 CI/CD 管線管理及自主儲存庫維護功能。
用於檢測光度曲線中凌日系外行星與食雙星的 BLS 週期圖工具。基於 astropy 的週期、持續時間與深度分析實現。
一個多範式 ETL 管線代理,支援批次與串流資料處理、自動結構推論以及可設定的 DAG 轉換,適用於異質資料來源。