流式响应最佳实践
流式(Streaming)响应可以实时返回模型生成内容,适合聊天、实时翻译等场景。
启用流式
response = client.chat.completions.create(
model="gpt-4o",
messages=[...],
stream=True # 启用流式
)
最佳实践
- 处理延迟:首个 chunk 可能需要 1–3 秒,建议展示 loading 状态
- 错误处理:流式响应中也要捕获和处理错误
- 连接管理:设置合理的超时时间(建议 60 秒)
- Token 统计:流式响应的 Token 统计在最后一个 chunk 中返回
常见问题
流式响应是否影响计费?
不影响。流式和非流式的计费方式完全相同。