生产力工程开发数据分析内容创作研究
ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
浏览: 14★ 9
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 113 个技能
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
提升图像质量、分辨率与清晰度,专为屏幕截图与数字媒体设计。适用于专业文档、博客与演示文稿。
运用系统化设计原则、AI 评估与自动化灵感分析,打造美观的用户界面。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
使用计算机视觉相似度嵌入技术,在 FiftyOne 数据集中查找、查看并移除重复或高度相似的图像。
使用 AI 生成专业 PowerPoint 演示文稿。通过 Gemini 强大的叙事规划与图像生成功能,从主题提示词直接建立全版高分辨率幻灯片。
基于 Gemini 的 UI 设计审核、无障碍审计与设计系统验证工具,专为软件代理设计。
创建专业且可编辑的 PowerPoint (.pptx) 演示文稿,具备 AI 生成的全屏幻灯片图像、品牌一致性与风格参考功能。
为 Enzo 设计的自动化截图转知识工作流。从截图中捕捉、分类、提取内容并记录模式,构建结构化的参考库。
AI 食物热量与营养计算器。通过视觉识别辨识餐点,自动计算卡路里及营养素,并结合内置营养数据库提供健康建议。
通过本地 ComfyUI 实例生成高质量图像。适合需要隐私保护、专业 AI 图像合成与自定义工作流的开发者。