跳到主要内容

流式响应最佳实践

流式（Streaming）响应可以实时返回模型生成内容，适合聊天、实时翻译等场景。

启用流式

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[...],
    stream=True  # 启用流式
)

最佳实践

处理延迟：首个 chunk 可能需要 1–3 秒，建议展示 loading 状态
错误处理：流式响应中也要捕获和处理错误
连接管理：设置合理的超时时间（建议 60 秒）
Token 统计：流式响应的 Token 统计在最后一个 chunk 中返回

常见问题

流式响应是否影响计费？

不影响。流式和非流式的计费方式完全相同。

启用流式
最佳实践
常见问题