生產力工程開發資料分析內容創作研究
ai-multimodal
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
瀏覽: 14★ 9
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 109 個技能
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
機器人感知系統設計、配置與優化,涵蓋攝影機、光達與感測器融合管線。包含相機校正、3D 重建與生產環境部署的最佳實踐。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
使用 Tesseract OCR 引擎從圖片中提取文字,支援多種語言、影像預處理以及多種輸出格式。
透過 nanaban CLI 使用 Gemini API 生成與編輯影像。適用於製作插圖、標誌、圖示,以及執行背景移除、風格轉換等照片編輯任務。
使用電腦視覺相似度嵌入技術,在 FiftyOne 資料集中尋找、檢視並移除重複或高度相似的圖像。
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
高效能文件智慧程式庫,可從 91 種以上檔案格式中提取文字、表格、程式碼與後設資料,並支援 OCR 與 LLM 格式輸出。
macOS 視覺自動化工具,提供精確視窗截圖、錄影、UI 標註、Excalidraw 線框圖生成及自動化視覺回歸測試。
從支援 RTSP 和 ONVIF 的安全攝影機擷取快照、錄製短片並監控移動事件。
分析並識別代碼庫模式(命名、架構、測試),以確保開發過程中的一致性與標準執行。
Google Gemini 影像生成 API 介面,支援文字轉影像、影像編輯、風格模板與自動重試工作流程。