TPM和RPM限制

🚀 TPM (Tokens Per Minute) & RPM (Requests Per Minute)

🚦理解 API 的速率限制对于高效使用模型至关重要。以下是关于 TPM 和 RPM 的详细解释：

✨ TPM (Tokens Per Minute)

定义: 模型每分钟可以处理的最大令牌数量。
限制因素: 取决于模型和部署的具体配置。
含义: 令牌是模型处理文本的基本单元，如单词或子词。

⏱️ RPM (Requests Per Minute)

定义: 每分钟可以发送的 API 请求数。
计算方式: 通常根据 TPM 计算，每 1000 TPM 对应 6 RPM。
超出限制: 达到 TPM 或 RPM 限制时，API 将返回 429 错误。

💡 示例

例如：

如果模型部署限制为 1000 TPM，则 RPM 限制为 6。
如果模型部署限制为 2000 TPM，则 RPM 限制为 12。

📝 总结

TPM 关注模型处理能力 (每分钟令牌数)。
RPM 关注 API 请求频率 (每分钟请求数)。
两者关联: RPM 通常基于 TPM 设置。
速率限制: 超出任何限制都将返回 429 错误。

⚠️ 重要提示

UUZAI通过负载轮询，默认普通用户就有很高的RPM，SVIP拥有更高的RPM速率，远超OpenAI等官方的限制
合理控制请求频率，避免触发速率限制。