gemini-audio
整合 Google Gemini API 音訊處理功能:進行錄音轉文字、音訊摘要、聲音分析,並提供語音合成 (TTS) 功能以產生自然語音。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 164 個技能
整合 Google Gemini API 音訊處理功能:進行錄音轉文字、音訊摘要、聲音分析,並提供語音合成 (TTS) 功能以產生自然語音。
統一的 AI 閘道,支援超過 100 種大語言模型,提供相容 OpenAI 的 API、模型備援、負載平衡及企業級管理工具。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
使用 OpenAI Agents SDK (Python) 構建 AI 代理。支援多代理協作、函數工具、狀態化對話、串流傳輸以及透過 LiteLLM 進行 Azure OpenAI 集成。
一個結構化的提示工程框架,能將隨意輸入轉換為包含角色、背景、任務、格式及防護機制的專業模組化提示詞。
構建具備工具呼叫與多步驟推理能力的 AI 代理。生成、管理並編排適用於 Claude Code、Cursor、Cline 等 AI 助手的自定義技能文件,實現開發流程標準化。
智能戰略規劃與需求收集,支援多視角共識循環與結構化審議。
一套完整的財務建模工具,用於投資分析,包含 DCF 折現現金流、敏感度分析、蒙地卡羅模擬及情境規劃功能。
使用 Google Gemini API 生成 3D 城市美食盲盒影像。創作包含標誌性美食、文化符號與城市歷史元素的四宮格立體模型風格圖像。
使用 LlamaExtract 實作從 PDF、DOCX 與 PPTX 等非結構化檔案中擷取結構化資料的解決方案,並透過 Pydantic 定義資料架構。
分析您的產品與代碼庫,識別、篩選並排序高潛力業務潛在客戶,並提供可執行的開發策略。
建立專業且可編輯的 PowerPoint (.pptx) 簡報,具備 AI 生成的全版投影片圖像、品牌一致性與風格參考功能。