NodeSeekbeta

用16G及以下显存跑Qwen3.6-35B-A3B模型轰出120t/s实现token自由

56days ago edited 56days ago in 技术

#0

实测效果

最新的Qwen3.6-35B-A3B的测试数据，比上代Qwen3.5-35B-A3B智能体编程能力（大幅增强）

模型采用APEX量子化技术量子化的MoE模型，什么是APEX？

APEX 是一种针对专家混合（Mixture-of-Experts，简称 MoE）模型的量化策略，超越了统一的位宽分配。它根据每个张量的角色——路由专家、共享专家或注意力——对每个张量进行分类，然后应用逐层精度梯度，使最敏感的边层获得更高的精度，并更激进地压缩冗余的中间层。结果是一组GGUF量化，能够以更小规模且推断速度更快、完全匹配或超越全Q8_0质量，全部使用原llama.cpp且无代码更改。

精度测试数据

总体来说：让更聪明的专家用高精度，让普通的专家用低精度

教程开始：

系统Windows 工具LM Studio 显卡内存16G

本次模型使用 https://huggingface.co/mudler/Qwen3.6-35B-A3B-uncensored-heretic-APEX-GGUF 这个模型自带无审核/去限制(干什么问什么都行)

LM Studio工具下载好之后直接在里面搜索这个模型mudler/Qwen3.6-35B-A3B-uncensored-heretic-APEX-GGUF

我跑出120t/s是用Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Mini，当然也可以选择其他精度更高的比如I-Quality，我测试也有70t/s

LM Studio设置

关于这个设置，设置越低就优先使用显卡，我测试用APEX-I-Mini拉满使用显存仅为6G不到也有50t/s，如果使用I-Quality建议18-35之间，这个根据你们显存慢慢微调

纯小白教程，有什么不对的欢迎大家指正。

lllfffccc

56days ago

#1

本地部署的好像没有文本能力
calvin

56days ago

#2

你要是换了 llama.cpp 会发现性能更高，
akisui

56days ago

#3

这种自部署，有啥用，不如外面gpt
zyjdqz

56days ago

#4

这头像。。。
cpuer1

56days ago

#5

感谢分享希望本地部署的ai能够更流行
mrwhite

56days ago

#6

llama.cpp的优化能力更强，你可以试试
sudoerx

56days ago edited 56days ago

#7

~~瓶颈在cpu而不是内存吧~~ 看错了显存/显卡机型😄 我在想我的大机呢么有显卡
nslemon

56days ago

#8

APEX-I-Mini拉满使用显存仅为6G不到也有50t/s？是指6G显存也可以部署吗？
jiaorong

56days ago

#9

mini那个是Q2量化，性能渣得不行。
ord3389楼主

54days ago

#10

@nslemon #8 理论上是

你好啊，陌生人!

我的朋友，看起来你是新来的，如果想参与到讨论中，点击下面的按钮！

快捷功能区

📈用户数目📈

目前论坛共有62164位seeker

🎉欢迎新用户🎉