image-generation
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 136 個技能
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
使用 ImageMagick 處理和操作圖像。支援調整大小、格式轉換、批次處理及檢索圖像元數據,適合開發人員與自動化工作流程。
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
機器人感知系統設計、配置與優化,涵蓋攝影機、光達與感測器融合管線。包含相機校正、3D 重建與生產環境部署的最佳實踐。
高效能文件智慧程式庫,可從 91 種以上檔案格式中提取文字、表格、程式碼與後設資料,並支援 OCR 與 LLM 格式輸出。
影片內容全鏈路處理管線,將原始錄影自動轉化為逐字稿、觀點摘要、短影片切片及完整文章。
一個自動化的 UI 實作代理,利用 Figma MCP 和瀏覽器渲染驗證,將 Figma 設計轉換為像素級精確的程式碼。
一個統一的文件處理閘道,支援 PDF 解析、文字提取、格式轉換與跨多種本地及雲端供應商的文件操作。
使用 AI 模型(如 FLUX 和 Gemini)生成或編輯影像。適用於照片、插圖、概念藝術和視覺素材,不包含技術圖表或原理圖。
使用 Nano Banana Pro (Gemini 3 Pro) AI 模型生成應用程式圖示、Logo、行銷橫幅及各類插圖等專業視覺素材。
為 OpenClaw 提供的 ElevenLabs 文字轉語音引擎,具備 macOS 風格的指令列介面與語音合成控制功能。