ocr
使用 Tesseract OCR 引擎從圖片中提取文字,支援多種語言、影像預處理以及多種輸出格式。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 94 個技能
使用 Tesseract OCR 引擎從圖片中提取文字,支援多種語言、影像預處理以及多種輸出格式。
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
分析並識別代碼庫模式(命名、架構、測試),以確保開發過程中的一致性與標準執行。
從網際網路擷取、下載並批次處理各種格式(JPG, PNG, WebP, SVG 等)的圖片,適用於嵌入文件、網頁存檔或聊天應用。
使用電腦視覺相似度嵌入技術,在 FiftyOne 資料集中尋找、檢視並移除重複或高度相似的圖像。
使用 AI 模型(如 FLUX 和 Gemini)生成或編輯影像。適用於照片、插圖、概念藝術和視覺素材,不包含技術圖表或原理圖。
機器人感知系統設計、配置與優化,涵蓋攝影機、光達與感測器融合管線。包含相機校正、3D 重建與生產環境部署的最佳實踐。
透過 nanaban CLI 使用 Gemini API 生成與編輯影像。適用於製作插圖、標誌、圖示,以及執行背景移除、風格轉換等照片編輯任務。
為 Enzo 設計的自動化截圖轉知識工作流。從截圖中捕捉、分類、提取內容並記錄模式,構建結構化的參考庫。
一個自動化的 UI 實作代理,利用 Figma MCP 和瀏覽器渲染驗證,將 Figma 設計轉換為像素級精確的程式碼。