TPM和RPM限制
🚀 TPM (Tokens Per Minute) & RPM (Requests Per Minute)
🚦理解 API 的速率限制对于高效使用模型至关重要。以下是关于 TPM 和 RPM 的详细解释:
✨ TPM (Tokens Per Minute)
- 定义: 模型每分钟可以处理的最大令牌数量。
- 限制因素: 取决于模型和部署的具体配置。
- 含义: 令牌是模型处理文本的基本单元,如单词或子词。
⏱️ RPM (Requests Per Minute)
- 定义: 每分钟可以发送的 API 请求数。
- 计算方式: 通常根据 TPM 计算,每 1000 TPM 对应 6 RPM。
- 超出限制: 达到 TPM 或 RPM 限制时,API 将返回
429 错误
。
💡 示例
例如:
- 如果模型部署限制为 1000 TPM,则 RPM 限制为 6。
- 如果模型部署限制为 2000 TPM,则 RPM 限制为 12。
📝 总结
- TPM 关注模型处理能力 (每分钟令牌数)。
- RPM 关注 API 请求频率 (每分钟请求数)。
- 两者关联: RPM 通常基于 TPM 设置。
- 速率限制: 超出任何限制都将返回 429 错误。
⚠️ 重要提示
- UUZAI通过负载轮询,默认普通用户就有很高的RPM,SVIP拥有更高的RPM速率,远超OpenAI等官方的限制
- 合理控制请求频率,避免触发速率限制。