gemini-audio
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 164 个技能
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
统一的 AI 网关,支持超过 100 种大语言模型,提供兼容 OpenAI 的 API、模型回退、负载均衡及企业级管理工具。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
使用 OpenAI Agents SDK (Python) 构建 AI 代理。支持多代理协作、函数工具、状态化会话、流式传输以及通过 LiteLLM 进行 Azure OpenAI 集成。
一个结构化的提示工程框架,能将随意输入转换为包含角色、背景、任务、格式及防护机制的专业模块化提示词。
构建具备工具调用与多步推理能力的 AI 代理。生成、管理并编排适用于 Claude Code、Cursor、Cline 等 AI 助手的自定义技能文件,实现开发流程标准化。
智能战略规划与需求收集,支持多视角共识循环与结构化审议。
一套完整的财务建模工具,用于投资分析,包含 DCF 折现现金流、敏感度分析、蒙特卡洛模拟及情境规划功能。
使用 Google Gemini API 生成 3D 城市美食盲盒影像。创作包含标志性美食、文化符号与城市历史元素的四宫格立体模型风格图像。
使用 LlamaExtract 实现从 PDF、DOCX 和 PPTX 等非结构化文件中提取结构化数据的方案,并通过 Pydantic 定义数据架构。
分析您的产品与代码库,识别、筛选并排序高潜力业务潜在客户,并提供可执行的开发策略。
创建专业且可编辑的 PowerPoint (.pptx) 演示文稿,具备 AI 生成的全屏幻灯片图像、品牌一致性与风格参考功能。