podcast-generation
利用 Azure OpenAI GPT Realtime Mini 模型与 WebSocket 流媒体技术,生成 AI 播客风格的音频叙事,包含 PCM 转 WAV 及前端播放整合。
简介
播客生成技能为开发人员提供了一个强大的架构模板,用于将即时交互式语音叙事整合到应用程序中。此技能专为全栈实现而设计,利用 Azure OpenAI Realtime API 弥合文本内容与对话式 AI 输出之间的差距。它特别适用于需要低延迟语音反馈或自动化音频讲故事的场景,例如新闻应用程序、教育内容平台及交互式 AI 代理。
此技能核心利用 GPT Realtime Mini 模型将输入文本转换为高质量的 PCM 音频流。通过 WebSocket 连接,实现了近乎实时的音频生成与播放。该技能包含了将原始 PCM 块转换为标准 WAV 格式的必要工具逻辑,确保与现代网页浏览器和音频播放引擎的兼容性。开发人员可以轻松选择 alloy、echo、fable 或 nova 等多种语音档案,以符合应用程序所需的音调。
-
通过 Azure OpenAI 的 WebSocket 整合实现实时音频流传输。
-
将 PCM 输出直接转换为浏览器兼容的 WAV Blob。
-
支持多种语音角色设置,包含 alloy、echo、fable、onyx、nova 及 shimmer。
-
涵盖 Python FastAPI 后端服务与 React 前端播放组件的全栈模式。
-
针对流式增量事件、转录同步与生成完成信号的异步事件处理。
-
确保环境已配置正确的 AZURE_OPENAI_AUDIO_ENDPOINT,且不包含旧版的 /openai/v1/ 后缀。
-
音频输出格式为 24kHz、16-bit、单声道 PCM;请确认本地音频管线支持此采样率。
-
在生产环境中需谨慎处理连接事件,以管理带宽与潜在的 WebSocket 超时问题。
-
使用随附的 PCM 转 WAV 辅助脚本以维持音频质量。
-
监控包含 response.output_audio.delta 与 response.done 的事件类型,以有效地管理前端状态与播放缓冲区。
仓库统计
- Star 数
- 2,204
- Fork 数
- 251
- Open Issue 数
- 46
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 21:26