ai-multimodal
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 110 個技能
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
透過本地 ComfyUI 實例生成高品質圖像。適合需要隱私保護、專業 AI 圖像合成與自訂工作流的開發者。
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
透過 WaveSpeed AI 使用 Google Nano Banana 2 模型進行圖像生成與編輯。支援文生圖、自然語言修圖、多圖合成、4K 解析度及多種比例。
使用 uv 自動化 Python 腳本編寫與 Gemini 影像生成。適用於創作藝術、編輯影像及執行臨時腳本。
基於 Apple Silicon 與 MLX 的本地機器學習推論服務,整合語音識別 (ASR)、語音合成 (TTS)、翻譯、圖像生成與視覺識別功能。
透過 nanaban CLI 使用 Gemini API 生成與編輯影像。適用於製作插圖、標誌、圖示,以及執行背景移除、風格轉換等照片編輯任務。
使用 Cloudflare Workers AI flux-1-schnell 模型生成影像。直接在您的工作流程中啟用文字生成圖片功能。
一個用於生成 ASCII 藝術的代理技能,針對無需反覆修改的一次性藝術輸出進行了優化。
使用 AI 模型(如 FLUX 和 Gemini)生成或編輯影像。適用於照片、插圖、概念藝術和視覺素材,不包含技術圖表或原理圖。
使用 Google Gemini API 生成 3D 城市美食盲盒影像。創作包含標誌性美食、文化符號與城市歷史元素的四宮格立體模型風格圖像。
使用 Google Gemini 3 Pro 模型生成與編輯圖像、圖表和資訊圖表。支援文字轉圖像、風格轉換及數據準確的視覺化創作。