跳到主要内容

流式响应最佳实践

流式(Streaming)响应可以实时返回模型生成内容,适合聊天、实时翻译等场景。

启用流式

response = client.chat.completions.create(
model="gpt-4o",
messages=[...],
stream=True # 启用流式
)

最佳实践

  1. 处理延迟:首个 chunk 可能需要 1–3 秒,建议展示 loading 状态
  2. 错误处理:流式响应中也要捕获和处理错误
  3. 连接管理:设置合理的超时时间(建议 60 秒)
  4. Token 统计:流式响应的 Token 统计在最后一个 chunk 中返回

常见问题

流式响应是否影响计费?

不影响。流式和非流式的计费方式完全相同。