ocr
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 86 个技能
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
使用 AI 生成专业 PowerPoint 演示文稿。通过 Gemini 强大的叙事规划与图像生成功能,从主题提示词直接建立全版高分辨率幻灯片。
通过本地 ComfyUI 实例生成高质量图像。适合需要隐私保护、专业 AI 图像合成与自定义工作流的开发者。
通过 WaveSpeed AI 使用 Google Nano Banana 2 模型进行图像生成与编辑。支持文生图、自然语言修图、多图合成、4K 分辨率及多种比例。
通过 AI 驱动的品牌逻辑,运用几何图形、负空间与平面向量风格,设计专业级的品牌识别标志。
使用 Google Gemini API 生成 3D 城市美食盲盒影像。创作包含标志性美食、文化符号与城市历史元素的四宫格立体模型风格图像。
通过 nanaban CLI 使用 Gemini API 生成与编辑图像。适用于制作插图、标志、图标,以及执行背景移除、风格转换等照片编辑任务。
智能笔记与流程图绘制工具。根据用户内容自动生成精美的可视化笔记、思维导图与流程图,并导出为图片,无需读取文件权限,适用于学习笔记、知识梳理与概念解释。
为 Enzo 设计的自动化截图转知识工作流。从截图中捕捉、分类、提取内容并记录模式,构建结构化的参考库。
一个用于生成 ASCII 艺术的代理技能,针对无需反复修改的一次性艺术输出进行了优化。
生成逼真的虚拟产品试穿视觉效果,协助客户在购买前评估版型、垂坠感与尺寸比例。
从互联网获取、下载并批量处理各种格式(JPG, PNG, WebP, SVG 等)的图像,适用于文档嵌入、网页归档或聊天场景。