image-generation
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 136 个技能
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
使用 ImageMagick 处理和操作图像。支持调整大小、格式转换、批量处理及检索图像元数据,适合开发人员与自动化工作流程。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
机器人感知系统设计、配置与优化,涵盖摄像头、激光雷达与传感器融合管线。包含相机校准、3D 重建与生产环境部署的最佳实践。
高性能文档智能库,可从 91 种以上文件格式中提取文本、表格、代码及元数据,支持 OCR 及 LLM 友好输出。
视频内容全链路处理流水线,将原始录影自动转化为逐字稿、观点摘要、短视频切片及可发布文章。
一个自动化的 UI 实现代理,利用 Figma MCP 和浏览器渲染验证,将 Figma 设计转换为像素级精确的代码。
一个统一的文档处理网关,支持 PDF 解析、文本提取、格式转换与跨多种本地及云端供应商的文档操作。
使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。
使用 Nano Banana Pro (Gemini 3 Pro) AI 模型生成应用图标、Logo、营销横幅及各类插图等专业视觉素材。
为 OpenClaw 提供的 ElevenLabs 文字转语音引擎,具备 macOS 风格的命令行界面与语音合成控制功能。