podcast-generation
利用 Azure OpenAI GPT Realtime Mini 模型与 WebSocket 流媒体技术,生成 AI 播客风格的音频叙事,包含 PCM 转 WAV 及前端播放整合。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 154 个技能
利用 Azure OpenAI GPT Realtime Mini 模型与 WebSocket 流媒体技术,生成 AI 播客风格的音频叙事,包含 PCM 转 WAV 及前端播放整合。
通过 iTunes Search API 搜索、浏览并下载 Apple Podcasts 节目。适用于音频内容存档、批量下载以及获取丰富的元数据,适合研究需求或个人媒体库管理。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
Helm Chart 开发与部署的快速参考工具,提供 Kubernetes 模板语法与自动化部署建议。
视频内容全链路处理流水线,将原始录影自动转化为逐字稿、观点摘要、短视频切片及可发布文章。
使用高精度说话者分离技术转录 YouTube 视频与本地音视频文件,提供适合 AI 分析的结构化文本输出。
FlowGram.ai 自定义节点开发指南,支持简单节点自动表单与复杂节点自定义 UI 开发。
防止 AI 幻觉,确保在分析代码、技术文档或提供建议时,输出具备证据支持且可验证的内容。
统一的内容提取与行动规划引擎。自动将 URL(YouTube、文章、PDF)处理为可执行的行动计划。
PAI 的实体合成桥梁。生成蓝图、3D 打印代码、激光切割 SVG 路径以及 CNC 加工 G-Code,将代理设计转化为实体硬件。
使用 OpenAI Whisper CLI 进行本地语音转文字转录,无需外部 API 密钥即可提供私密且高准确度的音频处理。
Anthropic Claude 集成模式:流式传输、基于 pgvector 的 RAG、工具调用、模型选择(Haiku/Sonnet/Opus)、提示词缓存及 AI 工程成本管理。