ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 121 个技能
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
自动化临床报告生成,包括符合 CARE 指南的病例报告、诊断总结、临床试验文件 (CSR/SAE) 及病人笔记,并确保法规合规性。
全方位 Python 医疗 AI 工具包,用于临床数据处理、医学编码转换,以及开发用于 EHR、生理信号和临床预测任务的深度学习模型(如 RETAIN 与 Transformer)。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
分析 AppWorld 任务失败原因,提取具体的 API 模式并生成带有实现代码示例的可执行剧本要点。
使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。
提供用于药物开发的 AI 就绪数据集、基准测试与分子预测工具,涵盖 ADME、毒性、药物-目标交互作用及分子生成任务。
自动检索 PubMed 科学文献并生成生物医学研究的通俗易懂摘要。
使用 Google Gemini 3 Pro 模型生成与编辑图像、图表和信息图表。支持文本转图像、风格转换及数据准确的视觉化创作。
使用计算机视觉相似度嵌入技术,在 FiftyOne 数据集中查找、查看并移除重复或高度相似的图像。
Helm Chart 开发与部署的快速参考工具,提供 Kubernetes 模板语法与自动化部署建议。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。