gemini-audio
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 103 个技能
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
在 OpenClaw 中使用 OpenAI Whisper API 将音频文件直接转换为文字。
通过 CLI 管理 Higress AI Gateway 的自动模型路由。根据请求内容设置触发规则,实现智能模型选择。
基于 OpenAI Whisper 的专业音频/视频转录工具。提供模型选择、时间轴同步、说话者分离 (diarization) 及批处理功能,优化影音工作流程。
使用 Tesseract OCR 引擎从图片中提取文字,支持多种语言、图像预处理以及多种输出格式。
分析会议逐字稿以揭示沟通模式、行为洞察及领导力反馈。识别冲突回避、赘词使用、发言比例及主动倾听,帮助您提升专业表达与影响力。
为 OpenClaw 提供的 ElevenLabs 文字转语音引擎,具备 macOS 风格的命令行界面与语音合成控制功能。
提取并记录真实的写作语气。为 AI 训练、代笔写作及品牌一致性建立详尽的语气指南。
下载 Instagram Reels、提取元数据并使用 Groq Whisper 生成音频逐字稿。支持通过 yt-dlp 处理 TikTok 与 YouTube Shorts。
自动提取 YouTube 字幕并进行 AI 摘要与中文翻译,同时提供三种难度的互动式理解测验,帮助深入掌握影片内容。
通过 MCP 将您的 AI 代理连接至 Hugging Face Hub。搜索模型、数据集与论文,管理存储库,执行云端计算任务,并将 Gradio Spaces 作为 AI 工具调用使用。
利用 Azure OpenAI GPT Realtime Mini 模型与 WebSocket 流媒体技术,生成 AI 播客风格的音频叙事,包含 PCM 转 WAV 及前端播放整合。