ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 109 个技能
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
机器人感知系统设计、配置与优化,涵盖摄像头、激光雷达与传感器融合管线。包含相机校准、3D 重建与生产环境部署的最佳实践。
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
通过 nanaban CLI 使用 Gemini API 生成与编辑图像。适用于制作插图、标志、图标,以及执行背景移除、风格转换等照片编辑任务。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
视觉创意生图提示词生成工具,专为海报、Banner、产品图、社交媒体配图等全场景视觉内容设计,助力高质量 AI 绘图。
高性能文档智能库,可从 91 种以上文件格式中提取文本、表格、代码及元数据,支持 OCR 及 LLM 友好输出。
使用计算机视觉相似度嵌入技术,在 FiftyOne 数据集中查找、查看并移除重复或高度相似的图像。
为创业者、内容创作者与专业人士设计的个人数字大脑系统,利用 AI 协助管理数字足迹、知识库、人际关系与个人目标。
使用 Google Gemini API 进行深度视频分析:包含视频摘要、音频转录、时间戳提取、视频片段剪辑,并支持 YouTube 链接或本地文件,适用于多种模型与长文本上下文。
提升图像质量、分辨率与清晰度,专为屏幕截图与数字媒体设计。适用于专业文档、博客与演示文稿。