工程开发
llmfit-advisor avatar

llmfit-advisor

分析本地硬件 (RAM, CPU, GPU/VRAM) 并获取优化的本地 LLM 模型推荐、量化设置与性能预估。

简介

llmfit-advisor 是一款针对硬件感知的智能代理,旨在弥合复杂的本地模型需求与用户系统规格之间的差距。它提供了与 llmfit 引擎的自动化接口,允许用户根据 CPU、RAM 和 GPU 内存 (VRAM) 的实时诊断,精确确定哪些大型语言模型 (LLM) 可以在其机器上有效运行。对于希望在本地运行 Llama、Mistral、Gemma 或 Qwen 等模型,却不想通过反复试错来猜测适配程度的开发者、AI 爱好者和研究人员来说,此工具必不可少。通过评估硬件与模型参数规模及架构(包括专家混合模型 MoE),它确保了高效的资源利用和最佳的推理速度。

  • 自动检测系统硬件,包括 NVIDIA、AMD 及 Apple Silicon 统一内存。

  • 根据综合指标(模型质量、速度、适配度、上下文窗口大小)提供智能评分。

  • 推荐最佳量化设置 (如 Q4_K_M, Q5_K_M),在可用内存限制内最大化模型能力。

  • 直接与 Ollama、vLLM 和 LM Studio 等本地推理提供商集成,简化设置流程。

  • 支持多 GPU 配置和硬件仿真规划。

  • 提供按用例筛选的建议,包括编程、逻辑推理、对话、多模态和嵌入任务。

  • 该顾问工具通过 llmfit --json system 命令评估硬件,并使用 llmfit recommend 获取优先排序的模型列表。

  • 提供明确的“适配等级”(Perfect, Good, Marginal, TooTight),以防止推理过程中的内存溢出崩溃。

  • 通过将 HuggingFace 仓库名称映射到本地提供商标签,协助配置 models.providers.ollama 及其他后端环境。

  • 非常适合寻求通过明智的量化选择和硬件卸载 (GPU, CPU+GPU Offload, 或 CPU) 来最大化每秒生成 Token 数 (TPS) 的用户。

  • 支持交互式 TUI 工作流程以进行实时调整,并可通过社区数据提供高级硬件性能基准测试。

仓库统计

Star 数
25,116
Fork 数
1,493
Open Issue 数
56
主要语言
Rust
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 02:23
在 GitHub 查看