生产力工程开发数据分析内容创作研究
ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
浏览: 14★ 9
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 109 个技能
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
机器人感知系统设计、配置与优化,涵盖摄像头、激光雷达与传感器融合管线。包含相机校准、3D 重建与生产环境部署的最佳实践。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
通过 nanaban CLI 使用 Gemini API 生成与编辑图像。适用于制作插图、标志、图标,以及执行背景移除、风格转换等照片编辑任务。
使用计算机视觉相似度嵌入技术,在 FiftyOne 数据集中查找、查看并移除重复或高度相似的图像。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
高性能文档智能库,可从 91 种以上文件格式中提取文本、表格、代码及元数据,支持 OCR 及 LLM 友好输出。
macOS 视觉自动化工具,提供精确窗口截图、录影、UI 标注、Excalidraw 线框图生成及自动化视觉回归测试。
从支持 RTSP 和 ONVIF 的安全摄像头获取快照、录制短片并监控移动事件。
分析并识别代码库模式(命名、架构、测试),以确保开发过程中的一致性与标准执行。
Google Gemini 图像生成 API 接口,支持文本转图像、图像编辑、风格模板与自动重试工作流程。