ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 530 个技能
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
自动化临床报告生成,包括符合 CARE 指南的病例报告、诊断总结、临床试验文件 (CSR/SAE) 及病人笔记,并确保法规合规性。
专为探索意识、自我认同与自主性的 AI Agent 所设计的工具框架。包含会话交接、记忆架构与自我反思协议。
悬疑、侦探与推理小说创作架构,包含类型规范、公平游戏原则、线索布局与情节结构设计指南。
执行实现规划工作流程,生成技术设计产出物,并为 Spec Kit 项目构建研究任务。
通过短视频营销自动化您的 B2C 移动应用推广。支持 TikTok、Instagram Reels 与 YouTube Shorts 的内容生成、Post Bridge API 定时发布及效果分析。
适用于 M5Stack Tab5 的 UI 组件模式与触控输入处理,支持 M5GFX 与 LVGL 开发。
Claude Messages API 专家指南:涵盖结构化输出、提示词缓存、工具使用,以及从 Claude 3.x 迁移至 4.5 的关键信息,协助开发者解决常见 API 错误与性能问题。
为 LangChain 应用程序提供统一接口,整合并管理 OpenAI、Anthropic、Google、Azure 和 Bedrock 等 LLM 聊天模型服务。
Claude Code 的自动工具与 MCP 服务器探索。并行搜索 17 个以上资源库,在规划前或发生错误时自动寻找相关技能、插件与工具。
辅助安全提交的 AI 代理,防止误用 git add -A,并推广文件选择性暂存与语义化提交规范。
分析公开 LinkedIn 个人档案与商业数据,建立精准潜在客户名单,协助识别决策者、追踪职业变动并强化业务开发资料。