ocr
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 627 个技能
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
使用 JXA 与 PyXA 自动化 Apple Keynote 演示文稿。通过 Apple Events 程序化创建幻灯片、管理文档、插入图表、图像和文本。
全面的 SEO 和 GEO 优化工具。用于分析域名、查找关键词差距、研究反向链接,并通过 DataForSEO 生成搜索建议。
Nuxt 框架决策辅助层,用于优化项目开发,引导至正确的 Nuxt 套件、Vue 指南或模块特定逻辑。
为 Pull Request 与文档制作精美的终端动画演示,支持使用 asciinema、agg 与 svg-term-cli 进行录制与转换。
启用支持长期、多工作阶段的自主开发任务,提供状态追踪、可恢复执行以及双代理程序规划执行工作流。
视频内容全链路处理流水线,将原始录影自动转化为逐字稿、观点摘要、短视频切片及可发布文章。
监控项目进度、分析活跃轨道并识别开发工作空间中的阻塞问题。
基于 Qdrant 和 Ollama 的本地 RAG 语义记忆系统。适用于高效检索工作区文件、笔记、决策记录与用户偏好,提供精确的向量语义搜索。
Swagger Petstore 的结构化 API 接口,专为 AI 代理设计,通过按需加载文档与宠物、用户及商店订单等资源进行交互。
利用 Azure OpenAI GPT Realtime Mini 模型与 WebSocket 流媒体技术,生成 AI 播客风格的音频叙事,包含 PCM 转 WAV 及前端播放整合。
基于顶级咨询标准(McKinsey, BCG)的 PowerPoint 演示文稿审阅工具,支持逻辑架构、叙事、清晰度、设计与 DSFR 合规性分析。