导读:由于先进的量化和模型优化,开发者可以在笔记本电脑或台式机上运行功能强大的大语言模型,即使你的内存或虚拟内存不足8GB。
当大多数人想到大型语言模型(LLMs)时,他们会想到庞大的云服务器和高昂的订阅费用。
但人工智能革命现在已经触手可及。实际上。由于先进的量化和模型优化,你可以在笔记本电脑或台式机上运行强大的LLMs,即使你的RAM或VRAM不足8GB。让我们探讨如何将先进的AI带到你的本地机器,以及哪些模型正在引领潮流。
解密量化:小型LLM如何适应中等硬件
在深入了解最佳模型之前,让我们分解让本地LLM成为可能的技术栈。
其秘诀在于量化——一种将模型权重从16位或32位浮点数缩减为4位或8位整数的过程,从而大幅减少内存需求而不对质量造成重大影响。
例如,一个原本需要14GB FP16的7B参数模型,通过4位量化可以在只有4-5GB的内存中运行。
关键技术概念:
开始使用:运行本地LLM的工具
最佳的10个小型本地LLM(全部低于8GB!)
ollama run llama3.1:8b
Meta的Llama 3.1 8B是通用AI的佼佼者,拥有庞大的训练集和智能优化。
像Q2_K(3.18GB文件,约7.2GB内存)和Q3_K_M(4.02GB文件,约7.98GB内存)这样的量化版本使其适用于大多数笔记本电脑。它在聊天、代码、摘要和RAG任务中表现出色,是批量处理和代理工作流程的首选。
ollama run mistral:7b
ollama run gemma3:4b
谷歌DeepMind的Gemma 3:4B虽小但却强大。Q4_K_M(1.71GB文件)只需4GB VRAM即可运行,非常适合移动设备和低端PC。非常适合文本生成、问答和OCR任务。
ollama run gemma:7b
更大的Gemma 7B在代码、数学和推理方面更具实力,但仍能容纳在8GB VRAM中(Q5_K_M:6.14GB,Q6_K:7.01GB)。它适用于内容创作、聊天和知识工作。
ollama run phi3
微软的Phi-3 Mini是一款紧凑的强大工具,适用于逻辑、编程和数学。Q8_0(4.06GB文件,7.48GB内存)完全在8GB限制内。它非常适合聊天、移动设备和低延迟任务。
ollama run deepseek-r1:7b
DeepSeek的7B和8B模型以推理和代码能力著称。R1 7B Q4_K_M(4.22GB文件,6.72GB内存)和R1 8B(4.9GB文件,6GB VRAM)都适合8GB配置。它们非常适合中小企业、客户服务和高级数据分析。
ollama run qwen:7b
阿里巴巴的Qwen 7B模型是多语言且具有丰富的上下文(32K tokens)。Qwen 1.5 7B Q5_K_M(5.53GB)和Qwen2.5 7B(4.7GB,6GB VRAM)非常适合聊天机器人、翻译和编程帮助。
ollama run deepseek-coder-v2:6.7b
Deepseek-coder-v2 6.7B是程序员的梦想——经过微调,专门用于代码生成和理解。在3.8GB(6GB VRAM)下运行,是本地代码补全和开发工具的首选。
ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf
来自微软的BitNet b1.58 2B4T是效率的奇迹,使用1.58位权重仅需0.4GB内存即可运行。它非常适合边缘设备、物联网和纯CPU推理——比如设备上的翻译和移动助手。
ollama run orca-mini:7b
Orca-Mini 7B基于Llama和Llama 2构建,是一个灵活的模型,适用于聊天、问答和指令遵循。Q4_K_M(4.08GB文件,6.58GB内存)和Q5_K_M(4.78GB文件,7.28GB内存)都是8GB友好的。它是构建AI代理和对话工具的理想选择。
上述所分享的模型——Llama 3.1 8B、Mistral 7B、Gemma 3:4B和7B、Phi-3 Mini、DeepSeek R1、Qwen 7B、Deepseek-coder-v2、BitNet b1.58和Orca-Mini——证明了你不需要超级计算机来利用AI。
这些均得益于量化和开源创新,可以让我们在日常的普通硬件上运行先进的语言模型。
再总结一下为什么大语言模型的本地化运行如此的重要:
随着量化和边缘AI的持续发展,预计会有更多强大的模型在更小的设备上运行。让我们继续深入探索,不断进行实验,找到适合工作流程的最佳大语言模型!
作者:洛逸
参考:
https://garysvenson09.medium.com/10-must-try-small-local-llms-that-run-on-less-than-8gb-ram-vram-aea836d8a85b
本文为 @ 万能的大雄 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。