logo NodeSeekbeta

问一下关于hermes,上下文压缩有啥建议吗

最近使用hermes对话太长之后后续回复响应的会离谱的慢,更吃token,具体表现如下
第一个是9点54分测试,直到10点12分才响应,第二个是11点06分测试的到11点24分才有回复(别问为啥不强制打断,我试过了,在tgbot中没有用,只能通过服务器终端强制停止,那时电脑没在身边,只能眼巴巴的看着它猛猛的花额度)
image
image
就单单上面这两轮啥也没干,额度将近花了15u多,哎,大概是上下文太长卡住了,gpt在处理对话压缩,处理效率不太好,所以响应极慢,压缩过程中会持续的吃token

今天二开了一个项目:
https://www.nodeseek.com/post-793977-1
我看了下额度将近花了120u多点,
image

故:我想问一下,大家有没有什么优化建议

12
  • hermes可以设置辅助模型,找那种量大速度快的。
    我是直接用的官方API的deepseek v4 flash作为辅助模型,用来压缩主模型的上下文。
    gpt5.5官方建议好像是上下文272K,压缩阈值85%,我设的hermes压缩阈值是75%

  • 换个快一点的模型压缩
    然后改成85%自动压缩
    最后手动开新对话

  • 你也看魁拔啊

  • 我印象里 Hermes 的 TG Bot 有 /stop 打断来着
    然后压缩上下文的时候我都是切到 DS model 压缩,gpt 上下文太拉了

  • 请问hermes部署到服务器,需要什么配置的服务器

  • @StepaniaH #3
    卡住时候我试过了,没任何反应,/stop /restar /new 都试了,没有用

  • 这是哪个中转站?

  • @Herman0368 #4
    感觉2h2g就够了,具体看你拿来干啥吧

12

你好啊,陌生人!

我的朋友,看起来你是新来的,如果想参与到讨论中,点击下面的按钮!

📈用户数目📈

目前论坛共有62470位seeker

🎉欢迎新用户🎉