Mac跑本地AI大模型还差这一块

2026-04-01 3 纸飞机账号购买

均为Mac，有人认为本地大模型“已然足够用了”，有人一旦打开长文档、长代码仓库便开始卡顿、开始迟缓、开始爆内存。好多时候，问题并非全都在于模型大小，而是在于另一件更易被忽视之事上：模型的“临时记忆”所占空间太大了。

此事于技术领域被称作KV Cache，你能够将其理解为，大模型于推理之际随身携带的一本笔记簿，对话越是冗长，文档越是冗长，代码上下文越是冗长，这本笔记簿便越是厚实，伴随与模型持续对话，Mac那本颇为珍贵的统一内存，亦会被持续占用。

存不存在一种途径，可把这个笔记本进行压缩而后让用户较便利地于Mac上运用本地的模型呢？

开源项目“+”提供了一个方法。

一个来自大厂思路的开源项目

谷歌研究院在ICLR 2026学术会议上发表的最新论文，运用了一套数学方法，针对“笔记本太厚”这一问题进行专门解决。

这个项目做到了，将AI的“工作记忆”进行压缩，压缩后的程度是原来的1/4到1/6，然而其内容几乎没有发生改变。

如同你使用手机拍摄的一张体积为5MB的照片，在经过处理被压制成JPEG格式后，其大小变为了500KB，然而肉眼却几乎无法分辨出其中存在的差别。

+对AI的“记忆”做的，就是类似的事情。

数据呈现出这样的情况，有那样一段原本需2.78GB的长对话记忆经过压缩操作后，如今仅需0.98GB，其压缩比达到最高能有6.4倍之多，并且质量方面的损失降到了极小的程度，采用4-bit压缩方案所得到的回答质量几乎和未进行压缩时是一样的。

Mac用户福音

该项目一经亮相，便受到诸多Mac用户的关注，这是由于，其对于Mac用户所具备的价值，相较于对其他平台用户而言，要大出许多。

缘由极为单纯，鉴于Apple采用统一内存架构，在运行大语言模型之际，电脑的内存能够直接用以充当显存。

正因如此，统一内存架构存在一个现实层面的影响，其表现为，模型权重在争抢同一份内存，KV Cache同样在争抢这同一份内存，并且系统本身也在争抢这同一份内存。所以，对于Mac的价值而言，并非仅仅局限于“账面上省一点”这种情况，而是会直接在可用余量方面体现出来。

使用搭载M5 Max的 Pro实测

实施空间压缩之后，这意味着具备相同特性的Mac，能够容纳更多的信息内容。完成压缩操作后，不管是打算在本地阅读篇幅超长的PDF文件、会议记录、技术文档，亦或是期望让人工智能理解整个大型项目的代码，又或是想要进行本地知识库的检索行为，乃至于运用更大尺寸的模型等等，均可凭借空间的增加以及上下文长度的提升，收获更为优质的体验感受。

其意义在于此项目，它的目标是尽可能用力地去挖掘硬件的能力，以使Mac较少地被内存瓶颈阻碍，且无需让用户马上进行硬件升级。

这种“让用户省钱”的开源项目，自然也得到了更多用户的关注。

一个全新的设计思路

于上手之前，我还得帮大伙避开一个坑。尽管已然存在能够用作的实现，并且还同llama.cpp生态有着关联，然而却绝不能够简单地理解为当下已然是完整内置的情况，即使去复制参数也并不能直接就运行起来。

现时这个项目尚处于开源社区测试阶段，相较于实际投入使用，将其视作一个极值得予以关注的技术方向，事实上是更为优良的抉择。固然喽，要是真打算着手操作，亦能够先对项目的文件加以确认，如此一来也会减少诸多失误。

如若你已然于Mac之上在本地运行模型，并且时常遭遇上下文或内存方面的限制，又或者极为在意隐私，期望将文档、知识库、代码分析尽可能留存于本地，那么这个开源项目皆是值得予以关注的。归根结底，其意义并非是使Mac变为更为强大的AI助手，而是让Mac在本地大模型这条路途中，更少一些受到束缚。

很多时候呀，真正对体验起到决定作用的并非是处于模型排行榜顶端位置的那微小差距，而是你手中持有的这一件机器可不可以稳定地、顺畅地、持续不间断地达成你所想要去做的事情呢。

站在这个特定的角度朝着那个方向去看，针对这种处于基础层面的优化举措而言，反倒极有可能是最为贴近“有用”范畴的那一种进展情况。

要是你身为 Mac 用户，而且切实于本地运用大模型，那么这是值得予以关注的。它并非必定最为醒目，然而它所处理的是最为实际的问题，即如何能让同一台 Mac 容纳更多上下文信息，少占用一些内存，运行起来更像是个工具，而非仅仅是个玩具。

Mac跑本地AI大模型还差这一块

Mac跑本地AI大模型 还差这一块

Mac跑本地AI大模型还差这一块