TPM和RPM限制

🚀 TPM (Tokens Per Minute) & RPM (Requests Per Minute)

🚦理解 API 的速率限制对于高效使用模型至关重要。以下是关于 TPM 和 RPM 的详细解释:

✨ TPM (Tokens Per Minute)

  • 定义: 模型每分钟可以处理的最大令牌数量。
  • 限制因素: 取决于模型和部署的具体配置。
  • 含义: 令牌是模型处理文本的基本单元,如单词或子词。

⏱️ RPM (Requests Per Minute)

  • 定义: 每分钟可以发送的 API 请求数。
  • 计算方式: 通常根据 TPM 计算,每 1000 TPM 对应 6 RPM
  • 超出限制: 达到 TPM 或 RPM 限制时,API 将返回 429 错误

💡 示例

例如:

  • 如果模型部署限制为 1000 TPM,则 RPM 限制为 6
  • 如果模型部署限制为 2000 TPM,则 RPM 限制为 12

📝 总结

  • TPM 关注模型处理能力 (每分钟令牌数)。
  • RPM 关注 API 请求频率 (每分钟请求数)。
  • 两者关联: RPM 通常基于 TPM 设置。
  • 速率限制: 超出任何限制都将返回 429 错误。

⚠️ 重要提示

  • UUZAI通过负载轮询,默认普通用户就有很高的RPM,SVIP拥有更高的RPM速率,远超OpenAI等官方的限制
  • 合理控制请求频率,避免触发速率限制。