logo NodeSeekbeta

用16G及以下显存跑Qwen3.6-35B-A3B模型轰出120t/s实现token自由

实测效果

image


最新的Qwen3.6-35B-A3B的测试数据,比上代Qwen3.5-35B-A3B智能体编程能力(大幅增强)

image

模型采用APEX量子化技术量子化的MoE模型,什么是APEX?

APEX 是一种针对专家混合(Mixture-of-Experts,简称 MoE)模型的量化策略,超越了统一的位宽分配。它根据每个张量的角色——路由专家、共享专家或注意力——对每个张量进行分类,然后应用逐层精度梯度,使最敏感的边层获得更高的精度,并更激进地压缩冗余的中间层。结果是一组GGUF量化,能够以更小规模且推断速度更快、完全匹配或超越全Q8_0质量,全部使用原llama.cpp且无代码更改。

精度测试数据
image

总体来说:让更聪明的专家用高精度,让普通的专家用低精度

教程开始:

系统Windows 工具LM Studio 显卡内存16G

本次模型使用 https://huggingface.co/mudler/Qwen3.6-35B-A3B-uncensored-heretic-APEX-GGUF 这个模型自带无审核/去限制(干什么问什么都行)

LM Studio工具下载好之后直接在里面搜索这个模型mudler/Qwen3.6-35B-A3B-uncensored-heretic-APEX-GGUF

image

我跑出120t/s是用Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Mini,当然也可以选择其他精度更高的比如I-Quality,我测试也有70t/s

LM Studio设置

image

image
关于这个设置,设置越低就优先使用显卡,我测试用APEX-I-Mini拉满使用显存仅为6G不到也有50t/s,如果使用I-Quality建议18-35之间,这个根据你们显存慢慢微调

纯小白教程,有什么不对的欢迎大家指正。

12
  • xhj008 本地部署的好像没有文本能力

  • 你要是换了 llama.cpp 会发现性能更高,

  • 这种自部署,有啥用,不如外面gpt

  • 这头像。。。

  • 感谢分享 希望本地部署的ai能够更流行

  • llama.cpp的优化能力更强,你可以试试

  • 瓶颈在cpu而不是内存吧 看错了 显存/显卡机型😄 我在想我的大机呢 么有显卡

  • APEX-I-Mini拉满使用显存仅为6G不到也有50t/s?是指6G显存也可以部署吗?

  • mini那个是Q2量化,性能渣得不行。

12

你好啊,陌生人!

我的朋友,看起来你是新来的,如果想参与到讨论中,点击下面的按钮!

📈用户数目📈

目前论坛共有62164位seeker

🎉欢迎新用户🎉