大模型框架对比

上份工作的是 AI 项目，所以系统学习一下相关知识。

1. 推理/部署框架对比

框架名称	核心技术亮点	吞吐量水平	易用性	支持硬件（主流成熟支持）	典型适用场景	主要短板
vLLM	PagedAttention + 连续批处理 + FlashInfer集成 + Micro-Agent（API内多模型协作）	很高（生产基准强）	高	NVIDIA GPU（H100/B200最佳）、AMD ROCm、Intel Gaudi、部分TPU	高并发生产服务、企业级OpenAI兼容API、多模型实验、Agent协作	LoRA支持仍需额外配置、极致单卡不如TRT-LLM
SGLang	RadixAttention（前缀缓存） + 结构化输出（XGrammar） + 零开销批处理 + Agent流水线	极高（共享前缀场景领先）	中等	NVIDIA GPU（Hopper/Blackwell最佳）、AMD ROCm（良好）	复杂Agent、多轮对话、RAG、结构化/函数调用任务	学习曲线较陡、早期依赖解析稍复杂、生态仍在快速迭代
TensorRT-LLM	NVIDIA TensorRT深度内核优化 + MoE高效支持 + FP8/NVFP4 + NVIDIA Dynamo集成	最高（单卡/固定模型极致）	中等（需编译）	仅限NVIDIA GPU（H100/B200/L40S等最优）	追求极致延迟与吞吐的长期生产环境（单一模型）	仅NVIDIA、编译配置复杂、模型切换成本高
LMDeploy	TurboMind（C++极致优化） + PyTorch后端 + Persistent Batch	很高（H100基准常与SGLang并列第一）	高	NVIDIA GPU、华为昇腾（Ascend）、部分AMD	国产化场景、多模态、混合硬件、量化推理	社区规模小于vLLM、国际模型支持略滞后
Ollama	基于llama.cpp封装 + OpenAI API兼容 + 一键管理	中等	极高（一键）	CPU（x86/ARM）、NVIDIA、AMD ROCm、Apple Silicon（Metal）	个人开发、本地快速原型、Mac用户、本地测试	吞吐量不高、不适合高并发生产
llama.cpp	GGUF量化 + 多后端加速（cuBLAS/rocBLAS/Metal/Vulkan/SYCL）	中等（边缘强）	中等	最广：CPU（x86/ARM）、NVIDIA、AMD、Apple Metal、Vulkan等	边缘设备、低端硬件、本地离线、最大兼容场景	吞吐量一般、分布式/高并发支持较弱
Hugging Face TGI	FlashAttention + 连续批处理 + Rust核心实现	很高	高	NVIDIA GPU、AMD ROCm、Intel Gaudi、AWS Inferentia/Trainium	HF生态快速部署、研究实验、稳定生产	性能略逊于vLLM/SGLang/LMDeploy（已进入维护模式）
XInference	多后端集成（vLLM/Transformers/GGUF等） + 分布式 + 多模态统一管理	很高（分布式场景突出）	高	NVIDIA、AMD ROCm、华为昇腾（部分）、CPU、分布式集群	多模型统一管理、混合硬件集群、OpenAI兼容服务	近期PyPI安全事件需谨慎（用官方最新版）、单机纯吞吐不如专注框架
LM Studio	桌面 GUI + 本地服务器（llama.cpp + MLX）	中等（依赖底层）	极高（GUI最佳）	CPU + NVIDIA + AMD + Apple Silicon (MLX)	个人探索、模型测试、初学者、本地聊天、快速原型	不适合高并发生产；GUI 开销；底层性能受 llama.cpp/MLX 限制；闭源部分较多
oMLX	MLX-based inference server（带 paged SSD KV cache）	高（Apple 单机，Agent 场景强）	高（Mac 原生菜单栏 + API）	仅 Apple Silicon	Mac 上复杂 Agent、长上下文编码、Coding Agent（Cursor/Claude Code 本地替代）	仅限 Mac；社区较新；跨平台为零；高并发生产能力仍弱于 vLLM 类
MLC-LLM	统一编译 pipeline + WebGPU / mobile / edge 原生支持	中高（跨平台）	中高	最广跨平台：浏览器、移动端（iOS/Android）、边缘设备、CPU/GPU	移动/浏览器/跨平台部署、边缘推理、Web集成	单机高吞吐不如专用GPU框架；新模型支持可能滞后
NVIDIA Dynamo	Disaggregated prefill/decode + KV-cache智能路由 + 多引擎统一调度（vLLM/SGLang/TRT-LLM）	极高（多节点）	中等	NVIDIA GPU集群（Blackwell最优）	大规模生产集群、异构引擎统一管理、高并发企业部署	主要NVIDIA生态；运维复杂度较高

推理/部署框架推荐

追求最高吞吐量 + 高并发生产服务（通用场景）→ 首选 vLLM（最成熟、生态最好、Micro-Agent支持）。
需要极致单卡/固定模型性能 + 纯 NVIDIA 环境 → 首选 TensorRT-LLM（或搭配NVIDIA NIM/Dynamo）。
复杂 Agent / 多轮对话 / 结构化输出 / 函数调用 / RAG（共享前缀多） → 首选 SGLang（RadixAttention优势显著）。
国产化需求 / 昇腾（Ascend）硬件 / 混合硬件 → 首选 LMDeploy（TurboMind在国产硬件上表现突出）。
多模型统一管理 / 分布式集群 / 混合硬件环境 → XInference（注意安全，使用官方最新稳定版；或考虑Ray Serve + vLLM组合，或Dynamo）。
个人开发 / 本地快速上手 / Mac 用户 / 原型验证 → 首选 Ollama（最友好）。
边缘设备 / CPU / 老旧硬件 / 最大兼容性 / 离线 → 首选 llama.cpp（GGUF生态强大）。
Hugging Face 重度用户 / 追求开箱即用稳定性 → TGI（或vLLM）。
跨平台（移动/浏览器）部署 → MLC-LLM。
Mac 用户追求极致 GUI + 模型探索 → 首选 LM Studio（尤其是想一边聊天一边对比多个模型时）。
Mac 用户做复杂 Coding Agent / 长上下文多轮对话 → 强烈考虑 oMLX（其 SSD KV cache 在 Agent 场景有明显优势）；或者直接用 Ollama（已逐步切换 MLX backend） + LM Studio 配合。
大规模NVIDIA集群 → Dynamo 统一调度现有引擎。
个人本地快速上手 / Mac 用户 → Ollama 或 LM Studio（最友好），底层性能不足时再切换到 oMLX（Agent 专用）或 llama.cpp（最大控制权）。

2. 量化框架对比

框架/方法	核心技术亮点	量化精度支持	精度损失	易用性	典型速度/显存收益	典型适用场景	主要短板
GPTQ	层级后训练量化（one-shot）	INT4 / INT3 / INT2	较小	中等	极高（2-4×）	权重量化后离线部署	不支持动态量化、对称性要求高
AWQ	激活感知权重量化	INT4 主力	极小（SOTA之一）	高	高	高精度 INT4 需求场景	主要针对权重量化
bitsandbytes	NF4 / FP4 + 双重量化	8bit / 4bit(NF4)	小～中等	高（HF 集成）	中～高	训练时量化 + 推理（QLoRA 常用）	推理速度不如专用内核
llama.cpp / GGUF	混合精度 + k-quants（Q4_K_M 等）	Q8_0 ~ Q2_K	中等～较大	中等	高（CPU/GPU 均可）	本地/边缘/低配机器量化部署	精度损失相对明显
AutoAWQ	AWQ 的自动化实现 + HF 集成	INT4 主力	极小	高	高	快速一键量化 HuggingFace 模型	依赖 AWQ 核心
HQQ	Half-Quadratic Quantization	INT4/2bit 等	极小	中等	很高	追求极致低比特高精度场景	生态尚在快速发展
llm-compressor	vLLM官方压缩库，支持混合精度、KV Cache/Attention量化	FP8/NVFP4/Mixed 等	极小	高（与vLLM无缝）	极高	vLLM生产部署优化、MoE/大模型	主要服务vLLM生态

量化框架推荐

追求最高精度 + INT4 推理 → 首选 AWQ 或 AutoAWQ（简单好用）
需要极致低比特（2bit/3bit）且精度尽量高 → 试试 HQQ
QLoRA 微调时加载模型 → 首选 bitsandbytes（与 HF 生态最无缝）
本地/边缘设备 / CPU / 多平台部署 → 首选 llama.cpp GGUF（Q4_K_M / Q5_K_M 最常用）
希望一次性量化好后长期离线使用 → GPTQ（特别适合大模型）
vLLM生产优化 → llm-compressor（混合精度/KV量化强）

3. 微调框架对比

框架名称	核心技术亮点	支持微调方法	显存效率	易用性	速度提升	典型适用场景	主要短板
Unsloth	手动 Triton kernel 优化 + 4bit 免费	LoRA / QLoRA / DoRA 等	极高（2-5×）	极高	2-5× 更快	单卡/消费级 GPU 快速微调	目前主要支持主流模型
Axolotl	YAML 配置化 + 支持多种后端	Full / LoRA / QLoRA / RLHF 等	高	高	较快	需要高度自定义配置的微调项目	初学者 YAML 学习成本稍高
LLaMA-Factory	一站式 WebUI + 支持 100+ 模型	LoRA / QLoRA / Full / DPO 等	高	极高（有 UI）	较快	研究/教学/快速实验	极致性能不如 Unsloth
torchtune	纯 PyTorch 原生、无抽象	LoRA / QLoRA / Full 等	高	中等～高	较快	想要纯 PyTorch 控制感的开发者	配置稍繁琐
PEFT (HuggingFace)	官方参数高效微调库	LoRA / AdaLoRA / Prompt Tuning 等	高	高（与 HF 深度集成）	中等	与 Transformers 生态无缝结合的项目	本身不提供训练加速

微调框架推荐

单卡 / 消费级显卡 / 追求最快速度和最低显存 → 首选 Unsloth
想要带 WebUI / 一站式操作 / 快速实验 → 首选 LLaMA-Factory（支持100+模型、UI强大、中文生态友好）
需要高度自定义 / 支持 RLHF / 多阶段训练 → 首选 Axolotl
中文模型微调优先 / 较多中文数据集支持 → 首选 LLaMA-Factory
喜欢纯 PyTorch 风格 / 不想过多封装 → 可选 torchtune
普通 HF 项目 / 只想加 LoRA 不折腾 → 直接用 PEFT

4. 智能体框架对比

框架名称	开发者 / 组织	主要语言	核心焦点	关键特性	优势	适用场景
CrewAI	CrewAI Inc.	Python	角色扮演式团队协作	角色/任务分配、层次化流程、人类反馈循环、并行执行；轻量高效	易用性极高、快速原型、生产性能强；真实团队模拟	业务自动化、内容生成、团队式复杂任务分解
LlamaAgents	LlamaIndex Team	Python	数据密集型 RAG 代理	强大检索增强、索引工具深度集成、多模态数据支持；易构建多代理系统	检索与数据处理能力突出、知识密集任务优异	RAG 应用、文档智能分析、知识库问答系统
LangGraph	LangChain	Python / TS	有状态图基工作流编排	节点/边循环、分支控制、状态持久化、可视化调试；继承 LangChain 生态	精确控制复杂分支与错误处理；调试与可视化最佳	复杂状态工作流、持久化代理、多分支逻辑应用
OpenAI Agents SDK	OpenAI	Python / TypeScript	轻量级多代理工作流 + 守卫栏	Handoffs、Guardrails、Tracing、Sessions；支持 100+ LLM、无状态到有状态	生产就绪、可观测性强、易扩展；官方继任 Swarm	生产级多代理系统、实时协作、高守卫需求场景
Claude Agent SDK	Anthropic	Python / TypeScript	基于 harness 的自主代理（类 Claude Code）	文件读写、Bash 执行、Web 搜索、子代理、上下文管理、权限控制；丰富工具生态	代码与文件操作极强、安全 harness、生产级自主执行能力	代码代理、软件工程自动化、复杂文件/系统任务、需要强大工具执行的场景
Microsoft Agent Framework	Microsoft	.NET / Python	企业级多代理编排	融合 AutoGen 与 Semantic Kernel；强化可观测性、合规性、Azure 深度集成	企业级稳健性强、合规与安全优秀；实验→生产迁移顺畅	企业工作流、合规严格自动化、Azure 生态集成
Agent Development Kit (ADK)	Google	Python / Go / TypeScript / Java	全生命周期开发与部署	模块化设计、多模态流式支持、CLI + 本地 UI、A2A 协议；深度集成 Gemini / Vertex AI	生产就绪、Google 生态集成紧密；多语言支持	生产级应用、多模态任务、复杂业务自动化、Google Cloud
Strands Agents	AWS	Python	模型驱动自主代理	异步工具调用、MCP/A2A 支持、AWS 原生集成（Bedrock/Lambda/EC2）；几行代码建代理	简洁高效、生产部署极强；AWS 生态无缝	企业级自动化、AWS 集成、高并发/模型驱动任务
Agno	agno-agi	Python	全栈多代理平台（框架 + 运行时）	AgentOS 云运行时、MCP/A2A、记忆/知识/评估（Agent as Judge）、水平扩展、无状态缩放	性能极致、隐私云部署强；多模态/异步统一、高并发	企业多代理系统、安全敏感产品、长任务/规模化场景
Eve	Vercel	TypeScript	文件系统优先的持久化后端代理	agent/ 目录定义（instructions.md + tools/ + skills/ + subagents/ + channels/）；Vercel Workflows 持久执行、沙箱、Human-in-the-loop、AI Gateway	开发者体验极佳（像 Next.js 一样文件即配置）、生产部署零摩擦、内置可观测性与 evals	Vercel/Next.js 生态、全栈代理、内容/运维/数据分析代理
Mastra	Gatsby	TypeScript	TypeScript 全栈代理平台	Agents + Workflows + RAG + Memory + Evals + Studio UI + MCP；模型路由（3000+ models）	TS 原生现代 DX、batteries-included（Studio + evals 强）、生产就绪	TypeScript/Next.js 全栈应用、内部工具、客户面对代理、需要 evals 与 observability 的场景
Flue	Astro	TypeScript	沙箱化代理 harness 框架	可编程 harness（sessions、tools、skills、sandbox）、headless 自主代理、workflows、支持 Node/Cloudflare 等部署	安全沙箱 + 自主执行强、灵活 harness（类似 Claude Code 但 headless 可编程）	代码/文件操作代理、安全执行环境、headless 自动化工作流、可部署到任意 runtime 的代理
Llama Stack/OGX	Meta	多语言	标准化Agent基础设施（类似K8s）	统一API（inference/memory/tools等）、可移植性、多平台	跨框架互操作、生产标准化	企业级标准化部署、多平台Agent
vLLM Micro-Agent	vLLM	Python（集成推理）	推理层内Agent协作	API内多小模型组队、共享KV、协作/投票	低延迟高效率、成本低、打败单Frontier模型	高性能内置Agent、SWE/推理密集任务

智能体框架推荐

追求极致易用性 + 快速上线生产：CrewAI 或 OpenAI Agents SDK。
需要精细状态管理、复杂分支：LangGraph。
代码/文件密集型自主任务（软件工程、调试、自动化编辑）：Claude Agent SDK（harness 能力突出，工具生态强大）。
Azure 企业环境：Microsoft Agent Framework。
Google Cloud：Agent Development Kit (ADK)。
AWS 生态：Strands Agents。
Vercel/Next.js 生态：Vercel Eve。
TypeScript 全栈现代开发：Mastra。
安全沙箱 headless 代理：Flue。
标准化/跨平台基础设施：Llama Stack。
高性能推理内Agent：vLLM Micro-Agent。
极致性能与规模化：Agno。

智能体框架不推荐

CAMEL、AgentScope、VoltAgent、MetaGPT、SuperAGI、Portia AI：这些框架多用于研究、特定垂直或实验场景，生产采用率较低。
OpenAI Swarm：已被 Agents SDK 取代。
AutoGen：已融入 Microsoft Agent Framework。
Semantic Kernel：已融入 Microsoft Agent Framework。