实测效果

最新的Qwen3.6-35B-A3B的测试数据,比上代Qwen3.5-35B-A3B智能体编程能力(大幅增强)

模型采用APEX量子化技术量子化的MoE模型,什么是APEX?
APEX 是一种针对专家混合(Mixture-of-Experts,简称 MoE)模型的量化策略,超越了统一的位宽分配。它根据每个张量的角色——路由专家、共享专家或注意力——对每个张量进行分类,然后应用逐层精度梯度,使最敏感的边层获得更高的精度,并更激进地压缩冗余的中间层。结果是一组GGUF量化,能够以更小规模且推断速度更快、完全匹配或超越全Q8_0质量,全部使用原llama.cpp且无代码更改。
精度测试数据

总体来说:让更聪明的专家用高精度,让普通的专家用低精度
教程开始:
系统Windows 工具LM Studio 显卡内存16G
本次模型使用 https://huggingface.co/mudler/Qwen3.6-35B-A3B-uncensored-heretic-APEX-GGUF 这个模型自带无审核/去限制(干什么问什么都行)
LM Studio工具下载好之后直接在里面搜索这个模型mudler/Qwen3.6-35B-A3B-uncensored-heretic-APEX-GGUF

我跑出120t/s是用Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Mini,当然也可以选择其他精度更高的比如I-Quality,我测试也有70t/s
LM Studio设置


关于这个设置,设置越低就优先使用显卡,我测试用APEX-I-Mini拉满使用显存仅为6G不到也有50t/s,如果使用I-Quality建议18-35之间,这个根据你们显存慢慢微调
纯小白教程,有什么不对的欢迎大家指正。
你要是换了 llama.cpp 会发现性能更高,
这种自部署,有啥用,不如外面gpt
这头像。。。
感谢分享 希望本地部署的ai能够更流行
llama.cpp的优化能力更强,你可以试试
瓶颈在cpu而不是内存吧看错了 显存/显卡机型😄 我在想我的大机呢 么有显卡APEX-I-Mini拉满使用显存仅为6G不到也有50t/s?是指6G显存也可以部署吗?
mini那个是Q2量化,性能渣得不行。
@nslemon #8 理论上是