ai-multimodal
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 109 個技能
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
機器人感知系統設計、配置與優化,涵蓋攝影機、光達與感測器融合管線。包含相機校正、3D 重建與生產環境部署的最佳實踐。
使用 Tesseract OCR 引擎從圖片中提取文字,支援多種語言、影像預處理以及多種輸出格式。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
透過 nanaban CLI 使用 Gemini API 生成與編輯影像。適用於製作插圖、標誌、圖示,以及執行背景移除、風格轉換等照片編輯任務。
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
AI 視覺創意生圖提示詞生成工具,適用於海報、Banner、產品圖、社群媒體配圖等全場景視覺內容設計。
高效能文件智慧程式庫,可從 91 種以上檔案格式中提取文字、表格、程式碼與後設資料,並支援 OCR 與 LLM 格式輸出。
使用電腦視覺相似度嵌入技術,在 FiftyOne 資料集中尋找、檢視並移除重複或高度相似的圖像。
為創業者、內容創作者與專業人士設計的個人數位大腦系統,利用 AI 協助管理數位足跡、知識庫、人際關係與個人目標。
使用 Google Gemini API 進行深度影片分析:包含影片摘要、音訊轉錄、時間戳記提取、影片片段剪輯,並支援 YouTube 連結或本機檔案,適用於多種模型與長文本脈絡。
提升影像品質、解析度與清晰度,專為螢幕截圖與數位媒體設計。適用於專業文件、部落格與簡報。