延迟和性能
OpenRoute 以性能为首要目标设计。OpenRoute 经过大量优化,尽可能减少对您请求的延迟。
基础延迟
在典型的生产条件下,OpenRoute 为您的请求增加约 40ms 的延迟。这种最小的开销通过以下方式实现:
- 使用 Cloudflare Workers 的边缘计算,尽可能靠近您的应用程序
- 在边缘高效缓存用户和 API 密钥数据
- 优化的路由逻辑,最小化处理时间
性能考虑
缓存预热
当 OpenRoute 的边缘缓存处于冷状态时(通常在新区域运行的前 1-2 分钟内),您可能会遇到稍微更高的延迟,因为缓存需要预热。一旦缓存被填充,这种情况就会正常化。
信用余额检查
为了维护准确的计费并防止超额,OpenRoute 在以下情况下执行额外的数据库检查:
- 用户的信用余额较低(个位数美元)
- API 密钥接近其配置的信用限制
OpenRoute 在这些条件下更积极地使缓存过期,以确保正确的计费,这会增加延迟,直到添加额外的信用。
模型回退
当使用模型路由或提供商路由时,如果主要模型或提供商失败,OpenRoute 将自动尝试下一个选项。失败的初始完成无疑会增加特定请求的延迟。OpenRoute 跟踪提供商失败,并将尝试智能地绕过不可用的提供商,这样就不会在每个请求上产生这种延迟。
最佳实践
要使用 OpenRoute 实现最佳性能:
-
维护健康的信用余额
- 设置具有更高阈值和金额的自动充值
- 这有助于避免强制信用检查并降低余额为零的风险
- 建议最低余额:$10-20 以确保平稳运行
-
使用提供商偏好
- 如果您有特定的延迟要求(无论是首个 token 时间还是最后一个 token 时间),提供商路由功能可以帮助您实现性能和成本目标。
Last updated on