工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 23★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 157 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
用於在 Claude Code 和 Gemini CLI 擴展之間轉換及同步 AI 代理技能的通用 CLI 工具。
根據產品代碼手冊將測試工程師的缺陷描述標準化,修正錯別字、縮寫錯誤與歧義,並執行站點驗證。
為提示詞中的 JSON 數據提供認知安全分析,防止大型語言模型在處理不完整或大規模數據集時產生幻覺與推理錯誤。
提取並記錄真實的寫作語氣。為 AI 訓練、代筆寫作及品牌一致性建立詳盡的語氣指南。
建立基於假設的初版人物誌 (Proto-persona),整合市場訊號與團隊知識,在進行深入驗證前協助產品團隊達成共識。
透過 S.E.E.D. 利基檢查、STREAM 6 層分析與惡魔律師反向思維,進行端到端的創業構想驗證並生成產品需求文件 (PRD)。
一套設計系統與反模式指南,讓 AI 生成的介面更具人工質感。透過管理色彩、排版、間距與動畫,為 Toh Framework 提供專業的視覺品質。
為 OpenClaw 技能開發提供多代理迭代優化與品質把關,透過標準化測試與生命週期管理提升技能效能。
智慧型合約審閱工具,可識別風險、提取關鍵條款並標記異常條款,協助您做出明智決策。
對知識庫文檔進行深度結構分析、關鍵信息提取及質量評估的智能助手。
分析 Claude Code 會話歷史,以識別效率低下的模式、優化 Token 使用量並建議工作流程改進。