ai-multimodal
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 121 個技能
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
自動化臨床報告生成,包括符合 CARE 指南的病例報告、診斷總結、臨床試驗文件 (CSR/SAE) 及病人筆記,並確保法規合規性。
全方位 Python 醫療 AI 工具包,用於臨床數據處理、醫學編碼轉換,以及開發用於 EHR、生理訊號和臨床預測任務的深度學習模型(如 RETAIN 與 Transformer)。
使用結構化 JSON 提示詞與自動化 Python 腳本生成高品質的圖像、角色與場景,支援參考圖像以進行精確的視覺創作。
分析 AppWorld 任務失敗原因,提取具體的 API 模式並生成帶有實作程式碼範例的可執行劇本要點。
使用 AI 模型(如 FLUX 和 Gemini)生成或編輯影像。適用於照片、插圖、概念藝術和視覺素材,不包含技術圖表或原理圖。
提供用於藥物開發的 AI 就緒數據集、基準測試與分子預測工具,涵蓋 ADME、毒性、藥物-目標交互作用及分子生成任務。
自動化檢索 PubMed 科學文獻並生成生物醫學研究的平實語言摘要。
使用 Google Gemini 3 Pro 模型生成與編輯圖像、圖表和資訊圖表。支援文字轉圖像、風格轉換及數據準確的視覺化創作。
使用電腦視覺相似度嵌入技術,在 FiftyOne 資料集中尋找、檢視並移除重複或高度相似的圖像。
Helm Chart 開發與部署的快速參考工具,提供 Kubernetes 模板語法與自動化部署建議。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。