gemini-audio
整合 Google Gemini API 音訊處理功能:進行錄音轉文字、音訊摘要、聲音分析,並提供語音合成 (TTS) 功能以產生自然語音。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 103 個技能
整合 Google Gemini API 音訊處理功能:進行錄音轉文字、音訊摘要、聲音分析,並提供語音合成 (TTS) 功能以產生自然語音。
在 OpenClaw 中使用 OpenAI Whisper API 將音訊檔案直接轉換為文字。
透過 CLI 管理 Higress AI Gateway 的自動模型路由。根據請求內容設定觸發規則,實現智慧模型選擇。
基於 OpenAI Whisper 的專業音訊/影片轉錄工具。提供模型選擇、時間軸同步、說話者分離 (diarization) 及批次處理功能,優化影音工作流程。
使用 Tesseract OCR 引擎從圖片中提取文字,支援多種語言、影像預處理以及多種輸出格式。
分析會議逐字稿以揭示溝通模式、行為洞察及領導力回饋。識別衝突迴避、贅詞使用、發言比例及主動傾聽,協助您提升專業表達與影響力。
為 OpenClaw 提供的 ElevenLabs 文字轉語音引擎,具備 macOS 風格的指令列介面與語音合成控制功能。
提取並記錄真實的寫作語氣。為 AI 訓練、代筆寫作及品牌一致性建立詳盡的語氣指南。
下載 Instagram Reels、提取元數據並使用 Groq Whisper 生成音訊逐字稿。支援透過 yt-dlp 處理 TikTok 與 YouTube Shorts。
自動提取 YouTube 字幕並進行 AI 摘要與中文翻譯,同時提供三種難度的互動式理解測驗,幫助深入掌握影片內容。
透過 MCP 將您的 AI 代理連接至 Hugging Face Hub。搜尋模型、資料集與論文,管理儲存庫,執行雲端運算任務,並將 Gradio Spaces 作為 AI 工具呼叫使用。
利用 Azure OpenAI GPT Realtime Mini 模型與 WebSocket 串流技術,產生 AI 播客風格的音訊敘事,包含 PCM 轉 WAV 及前端播放整合。