问一下关于hermes，上下文压缩有啥建议吗

7h 3min ago edited 7h 1min ago in 日常

最近使用hermes对话太长之后后续回复响应的会离谱的慢，更吃token，具体表现如下
第一个是9点54分测试，直到10点12分才响应，第二个是11点06分测试的到11点24分才有回复（别问为啥不强制打断，我试过了，在tgbot中没有用，只能通过服务器终端强制停止，那时电脑没在身边，只能眼巴巴的看着它猛猛的花额度）

就单单上面这两轮啥也没干，额度将近花了15u多，哎，大概是上下文太长卡住了，gpt在处理对话压缩，处理效率不太好，所以响应极慢，压缩过程中会持续的吃token

今天二开了一个项目：
https://www.nodeseek.com/post-793977-1
我看了下额度将近花了120u多点，

故：我想问一下，大家有没有什么优化建议

halo25

6h 56min ago

#9

hermes可以设置辅助模型，找那种量大速度快的。
我是直接用的官方API的deepseek v4 flash作为辅助模型，用来压缩主模型的上下文。
gpt5.5官方建议好像是上下文272K，压缩阈值85%，我设的hermes压缩阈值是75%
nsgba

6h 49min ago

#16

换个快一点的模型压缩
然后改成85%自动压缩
最后手动开新对话
大鲨鱼

7h 3min ago

#1

你也看魁拔啊
sakura-s楼主

7h 1min ago

#2

@大鲨鱼 #1
包，哈哈，老魁拔粉了
StepaniaH

7h ago

#3

我印象里 Hermes 的 TG Bot 有 /stop 打断来着
然后压缩上下文的时候我都是切到 DS model 压缩，gpt 上下文太拉了
Herman0368

7h ago

#4

请问hermes部署到服务器，需要什么配置的服务器
sakura-s楼主

6h 58min ago

#5

@StepaniaH #3
卡住时候我试过了，没任何反应，/stop /restar /new 都试了，没有用
lotfree

6h 58min ago

#6

这是哪个中转站?
sakura-s楼主

6h 58min ago

#7

@Herman0368 #4
感觉2h2g就够了，具体看你拿来干啥吧
青艮

6h 56min ago

#8

@sakura-s #0 哪个中转站？
sakura-s楼主

6h 56min ago

#10

@lotfree #6 @青艮 #8
拼车正价pro20哈
具体这里：https://www.nodeseek.com/post-768838-1

问一下关于hermes，上下文压缩有啥建议吗

你好啊，陌生人!

快捷功能区

📈用户数目📈

🎉欢迎新用户🎉

所有版块

问一下关于hermes，上下文压缩有啥建议吗

你好啊，陌生人!

快捷功能区

所有版块

📈用户数目📈

🎉欢迎新用户🎉