ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 110 个技能
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
通过本地 ComfyUI 实例生成高质量图像。适合需要隐私保护、专业 AI 图像合成与自定义工作流的开发者。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
通过 WaveSpeed AI 使用 Google Nano Banana 2 模型进行图像生成与编辑。支持文生图、自然语言修图、多图合成、4K 分辨率及多种比例。
使用 uv 自动化 Python 脚本编写与 Gemini 图像生成。适用于创作艺术、编辑图像及执行临时脚本。
基于 Apple Silicon 与 MLX 的本地机器学习推理服务,整合语音识别 (ASR)、语音合成 (TTS)、翻译、图像生成与视觉识别功能。
通过 nanaban CLI 使用 Gemini API 生成与编辑图像。适用于制作插图、标志、图标,以及执行背景移除、风格转换等照片编辑任务。
使用 Cloudflare Workers AI flux-1-schnell 模型生成图像。直接在您的工作流程中启用文字生成图片功能。
一个用于生成 ASCII 艺术的代理技能,针对无需反复修改的一次性艺术输出进行了优化。
使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。
使用 Google Gemini API 生成 3D 城市美食盲盒影像。创作包含标志性美食、文化符号与城市历史元素的四宫格立体模型风格图像。
使用 Google Gemini 3 Pro 模型生成与编辑图像、图表和信息图表。支持文本转图像、风格转换及数据准确的视觉化创作。