最近使用hermes对话太长之后后续回复响应的会离谱的慢,更吃token,具体表现如下
第一个是9点54分测试,直到10点12分才响应,第二个是11点06分测试的到11点24分才有回复(别问为啥不强制打断,我试过了,在tgbot中没有用,只能通过服务器终端强制停止,那时电脑没在身边,只能眼巴巴的看着它猛猛的花额度)


就单单上面这两轮啥也没干,额度将近花了15u多,哎,大概是上下文太长卡住了,gpt在处理对话压缩,处理效率不太好,所以响应极慢,压缩过程中会持续的吃token
今天二开了一个项目:
https://www.nodeseek.com/post-793977-1
我看了下额度将近花了120u多点,

故:我想问一下,大家有没有什么优化建议
hermes可以设置辅助模型,找那种量大速度快的。
我是直接用的官方API的deepseek v4 flash作为辅助模型,用来压缩主模型的上下文。
gpt5.5官方建议好像是上下文272K,压缩阈值85%,我设的hermes压缩阈值是75%
换个快一点的模型压缩
然后改成85%自动压缩
最后手动开新对话
你也看魁拔啊
@大鲨鱼 #1
包,哈哈,老魁拔粉了
我印象里 Hermes 的 TG Bot 有 /stop 打断来着
然后压缩上下文的时候我都是切到 DS model 压缩,gpt 上下文太拉了
请问hermes部署到服务器,需要什么配置的服务器
@StepaniaH #3
卡住时候我试过了,没任何反应,/stop /restar /new 都试了,没有用
这是哪个中转站?
@Herman0368 #4
感觉2h2g就够了,具体看你拿来干啥吧
@sakura-s #0 哪个中转站?
@lotfree #6 @青艮 #8
拼车正价pro20哈
具体这里:https://www.nodeseek.com/post-768838-1