ocr
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 94 个技能
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
分析并识别代码库模式(命名、架构、测试),以确保开发过程中的一致性与标准执行。
从互联网获取、下载并批量处理各种格式(JPG, PNG, WebP, SVG 等)的图像,适用于文档嵌入、网页归档或聊天场景。
使用计算机视觉相似度嵌入技术,在 FiftyOne 数据集中查找、查看并移除重复或高度相似的图像。
使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。
机器人感知系统设计、配置与优化,涵盖摄像头、激光雷达与传感器融合管线。包含相机校准、3D 重建与生产环境部署的最佳实践。
通过 nanaban CLI 使用 Gemini API 生成与编辑图像。适用于制作插图、标志、图标,以及执行背景移除、风格转换等照片编辑任务。
为 Enzo 设计的自动化截图转知识工作流。从截图中捕捉、分类、提取内容并记录模式,构建结构化的参考库。
一个自动化的 UI 实现代理,利用 Figma MCP 和浏览器渲染验证,将 Figma 设计转换为像素级精确的代码。