我刚刚做了个小实验,
背景:我平时都是多开窗口并行写代码的,刚才我用其中一个cli窗口时,不停的提示model is at capacity.,简直到了疯狂的地步,已经接近输出1个对话就蹦出来一次。我查看了当时所在的上游,并且把它强制关闭了,什么用都没有,还在不停的报警。
结论一:这个警告的触发很可能不是或者至少不是根据账号标签来的。这是结论一。
于是我换到另外一个窗口,这个提示就消失了,一直工作到结束,一次都没有警告,也没有中断。那么我猜想,这个警告触发的逻辑极有可能是本地的多线程(多开)行为给gpt传递的标识,不论你如何切换账号都没有用,至于他是传递了多开标识,还是多开的窗口号,不清楚,但只要他把这个标识传递给GPT,就会蹦出来这个警告。
结论二:GPT有可能在本地存在多开标识的认定,通过这个标识在限制我们。
我只是简单的做了个测试,不一定是准确的,你们可以去试试看,把窗口都关了,保留第一个窗口,或者只开一个窗口,看看会不会好一些。
我觉得只是单纯日常抽风而已
不同的请求会路由到不同的 gpu 集群,你路由到的 gpu 集群正好没有 capacity 罢了
openai 文档里还有它们怎么根据请求 prefix 路由到 gpu 集群的解释