gemini-audio
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 143 个技能
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
通过 Turing Tavily 代理进行实时网页搜索。适用于查找最新信息、研究时事,以及获取训练数据库以外的实时数据。
AI 一键生成小红书爆款笔记,包含标题、正文、标签、封面提示词及发帖策略,真实种草风格,防封号优化。
通过 Telegram 或命令行自动发布 Instagram 帖子。支持住宅代理绕过检测、会话缓存,并集成 WaveSpeed 图像生成。
基于 Exa MCP 的免费 AI 网络搜索。支持深度研究、公司与人物调查及代码上下文分析,无需 API 密钥。
使用 OpenAI Whisper CLI 进行本地语音转文字转录,无需外部 API 密钥即可提供私密且高准确度的音频处理。
构建企业级 AI 代理系统,支持 LangGraph、Anthropic/OpenAI/vLLM 与结构化输出。具备流式传输、A2A 协议、Pydantic 验证、向量记忆体与防幻觉机制,适用于复杂的多代理协作工作流。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
使用 OpenAI ChatKit React 组件实现生产就绪的 AI 聊天界面。功能包含 hook 配置、流式传输、主题自定义、对话历史与 Next.js 应用程序的自定义工具整合。
中文日常实用工具集:天气预报、汇率查询、新闻摘要与快递追踪。无需配置,开箱即用。
将 Excel (.xlsx) 文件从英文翻译为中文,并保留所有格式、图片与图表。
OpenCode AI 专家指南:涵盖 TUI 指令、CLI 操作、AGENTS.md 配置、自定义代理工作流程与项目设置。