speak
使用 Kokoro TTS 进行本地文字转语音。在终端中生成音频、朗读文本并处理多语言语音合成。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 103 个技能
使用 Kokoro TTS 进行本地文字转语音。在终端中生成音频、朗读文本并处理多语言语音合成。
专业 Kokoro TTS 语音合成技能,专为 JARVIS 风格助手打造,提供离线、实时、安全的语音输出。包含流式合成、韵律控制及性能优化的音频生成功能。
使用 Microsoft Edge 神经语音引擎,通过 uvx edge-tts 生成高质量的文字转语音音频。
使用 Qwen ASR 模型将音频文件 (wav, mp3, ogg) 转录为文本。快速、支持本地运行,无需 API 密钥。
使用 OpenAI Whisper CLI 进行本地语音转文字转录,无需外部 API 密钥即可提供私密且高准确度的音频处理。
AI 驱动的口播视频剪辑 Agent,提供语音转录、口误识别与网页版审核流程。
基于 Apple Silicon 与 MLX 的本地机器学习推理服务,整合语音识别 (ASR)、语音合成 (TTS)、翻译、图像生成与视觉识别功能。
使用 ElevenLabs 将临床文本转换为自然且具同理心的语音,适用于病患宣教、用药提醒及各类医疗辅助内容。
强制执行 React 文档编写的专业语气、风格与技术准则,确保 Learn、Reference 与 Blog 页面内容的一致性。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
使用 Microsoft Edge 神经 TTS 服务生成高质量语音。支持多种语言、语音选择以及语速、音调与格式调整。
通过可配置的 YAML 模板将内容转换为特定的语音配置、语气或风格,以确保品牌与叙事输出的一致性。