前端流式渲染实战：用 SSE + Vue 3 打造 ChatGPT 式实时对话界面

为什么你需要流式渲染？#

如果你用过 ChatGPT、Claude 或任何大模型产品，你一定见过那个”逐字蹦出”的效果——文字像打字机一样一个个出现，而不是等半天突然甩你一大段。这不是花活，这是刚需。

大模型的推理时间从几秒到几十秒不等。如果用传统的请求-响应模式，用户得盯着一个 loading 转圈几十秒，体验极差。而流式渲染让用户在第一个 token 生成的瞬间就能看到内容，感知延迟从 10 秒降到 200ms。

今天我们用 Vue 3 + SSE（Server-Sent Events）从零实现一个生产级的流式对话界面，涵盖所有你会踩的坑。

SSE vs WebSocket：选哪个？#

先说结论：AI 对话场景，SSE 是更好的选择。

维度	SSE	WebSocket
方向	服务端 → 客户端（单向）	双向
协议	HTTP/1.1 或 HTTP/2	独立的 ws:// 协议
自动重连	✅ 浏览器原生支持	❌ 需要手动实现
代理/CDN 兼容	✅ 标准 HTTP	⚠️ 部分代理不支持
复杂度	低	高
适合场景	服务端推送、流式输出	实时双向通信（聊天室、游戏）

AI 对话的本质是：用户发一条消息，服务端流式返回一段文本。 这是典型的单向推送，SSE 天生就是干这个的。WebSocket 的双向能力在这里完全用不上，反而增加了协议升级、心跳维护、重连逻辑等额外复杂度。

从零搭建：核心架构#

整个方案分四层：

1
┌─────────────────────────────────┐
2
│         UI 层 (Vue 组件)         │
3
│   消息列表 + 输入框 + 打字机效果   │
4
├─────────────────────────────────┤
5
│       流式解析层 (SSE Client)     │
6
│   连接管理 + 数据解析 + 错误处理   │
7
├─────────────────────────────────┤
8
│      渲染引擎 (Markdown 渲染)     │
9
│   增量渲染 + 代码高亮 + LaTeX     │
10
├─────────────────────────────────┤
11
│       状态管理 (Composable)       │
12
│   消息队列 + 流状态 + 中断控制    │
13
└─────────────────────────────────┘

第一步：封装 SSE 客户端#

浏览器原生的 EventSource API 有个致命缺陷：不支持 POST 请求，也不能自定义 Header。而 AI 对话接口几乎都需要 POST + Authorization。所以我们用 fetch + ReadableStream 手动实现：

1
interface SSEOptions {
2
  url: string
3
  body: Record<string, unknown>
4
  headers?: Record<string, string>
5
  onMessage: (chunk: string) => void
6
  onError?: (error: Error) => void
7
  onComplete?: () => void
8
}
9

10
export function createSSEClient() {
11
  let abortController: AbortController | null = null
12

13
  async function connect(options: SSEOptions) {
14
    abortController = new AbortController()
15

16
    try {
17
      const response = await fetch(options.url, {
18
        method: 'POST',
19
        headers: {
20
          'Content-Type': 'application/json',
21
          'Accept': 'text/event-stream',
22
          ...options.headers,
23
        },
24
        body: JSON.stringify(options.body),
25
        signal: abortController.signal,
26
      })
27

28
      if (!response.ok) {
29
        throw new Error(`HTTP ${response.status}: ${response.statusText}`)
30
      }
31

32
      const reader = response.body?.getReader()
33
      if (!reader) throw new Error('ReadableStream not supported')
34

35
      const decoder = new TextDecoder()
36
      let buffer = ''
37

38
      while (true) {
39
        const { done, value } = await reader.read()
40
        if (done) break
41

42
        buffer += decoder.decode(value, { stream: true })
43

44
        // SSE 协议：每条消息以 \n\n 分隔
45
        const lines = buffer.split('\n\n')
46
        buffer = lines.pop() || '' // 最后一段可能不完整，保留
47

48
        for (const line of lines) {
49
          const parsed = parseSSEMessage(line)
50
          if (parsed === '[DONE]') {
51
            options.onComplete?.()
52
            return
53
          }
54
          if (parsed) {
55
            options.onMessage(parsed)
56
          }
57
        }
58
      }
59

60
      options.onComplete?.()
61
    } catch (error) {
62
      if ((error as Error).name === 'AbortError') return
63
      options.onError?.(error as Error)
64
    }
65
  }
66

67
  function abort() {
68
    abortController?.abort()
69
    abortController = null
70
  }
71

72
  return { connect, abort }
73
}
74

75
function parseSSEMessage(raw: string): string | null {
76
  const lines = raw.split('\n')
77
  for (const line of lines) {
78
    if (line.startsWith('data: ')) {
79
      const data = line.slice(6)
80
      if (data === '[DONE]') return '[DONE]'
81
      try {
82
        const json = JSON.parse(data)
83
        // 兼容 OpenAI 和其他大模型 API 格式
84
        return json.choices?.[0]?.delta?.content
85
          || json.message?.content
86
          || json.text
87
          || null
88
      } catch {
89
        return data // 非 JSON 格式，直接返回原文
90
      }
91
    }
92
  }
93
  return null
94
}

关键细节： TextDecoder 的 { stream: true } 参数不能省。UTF-8 中文字符是多字节编码，一个汉字可能被拆成两个 chunk，不加这个参数会出现乱码。这个坑我见过无数人踩。

第二步：Vue 3 Composable 状态管理#

1
import { ref, nextTick } from 'vue'
2
import { createSSEClient } from './useSSE'
3

4
interface Message {
5
  id: string
6
  role: 'user' | 'assistant'
7
  content: string
8
  status: 'pending' | 'streaming' | 'done' | 'error'
9
  timestamp: number
10
}
11

12
export function useChat(apiUrl: string, apiKey: string) {
13
  const messages = ref<Message[]>([])
14
  const isStreaming = ref(false)
15
  const sseClient = createSSEClient()
16

17
  function generateId() {
18
    return `msg_${Date.now()}_${Math.random().toString(36).slice(2, 8)}`
19
  }
20

21
  async function sendMessage(content: string) {
22
    if (isStreaming.value || !content.trim()) return
23

24
    // 添加用户消息
25
    const userMsg: Message = {
26
      id: generateId(),
27
      role: 'user',
28
      content: content.trim(),
29
      status: 'done',
30
      timestamp: Date.now(),
31
    }
32
    messages.value.push(userMsg)
33

34
    // 添加空的助手消息（占位）
35
    const assistantMsg: Message = {
36
      id: generateId(),
37
      role: 'assistant',
38
      content: '',
39
      status: 'streaming',
40
      timestamp: Date.now(),
41
    }
42
    messages.value.push(assistantMsg)
43

44
    isStreaming.value = true
45

46
    await sseClient.connect({
47
      url: apiUrl,
48
      headers: { Authorization: `Bearer ${apiKey}` },
49
      body: {
50
        model: 'gpt-4o',
51
        stream: true,
52
        messages: messages.value
53
          .filter(m => m.status === 'done' || m === assistantMsg)
54
          .map(m => ({ role: m.role, content: m.content })),
55
      },
56
      onMessage(chunk) {
57
        assistantMsg.content += chunk
58
        // 滚动到底部（节流处理在组件层）
59
      },
60
      onError(error) {
61
        assistantMsg.status = 'error'
62
        assistantMsg.content = `生成失败：${error.message}`
63
        isStreaming.value = false
64
      },
65
      onComplete() {
66
        assistantMsg.status = 'done'
67
        isStreaming.value = false
68
      },
69
    })
70
  }
71

72
  function stopGeneration() {
73
    sseClient.abort()
74
    const lastMsg = messages.value[messages.value.length - 1]
75
    if (lastMsg?.status === 'streaming') {
76
      lastMsg.status = 'done'
77
      lastMsg.content += '\n\n*（已手动停止生成）*'
78
    }
79
    isStreaming.value = false
80
  }
81

82
  return { messages, isStreaming, sendMessage, stopGeneration }
83
}

第三步：打字机效果 + Markdown 实时渲染#

这是最容易翻车的地方。直接用 v-html 绑定 Markdown 渲染结果，每来一个 token 就重新渲染整段文本？可以，但性能炸裂。

一段 2000 字的回复，按 token 频率 20-50ms/个计算，Markdown 解析函数每秒要执行 20-50 次，每次都要处理越来越长的文本。在中低端设备上，你会看到明显的卡顿。

解决方案：requestAnimationFrame 节流 + 增量渲染。

1
import { ref, watch, onUnmounted } from 'vue'
2
import MarkdownIt from 'markdown-it'
3
import hljs from 'highlight.js'
4

5
const md = new MarkdownIt({
6
  highlight(str, lang) {
7
    if (lang && hljs.getLanguage(lang)) {
8
      try {
9
        return hljs.highlight(str, { language: lang }).value
10
      } catch { /* fallback */ }
11
    }
12
    return '' // 使用默认转义
13
  },
14
})
15

16
export function useStreamRenderer(content: () => string) {
17
  const renderedHtml = ref('')
18
  let rafId: number | null = null
19
  let lastRenderedLength = 0
20

21
  function scheduleRender() {
22
    if (rafId) return // 已经有一帧在排队了
23
    rafId = requestAnimationFrame(() => {
24
      rafId = null
25
      const raw = content()
26
      if (raw.length !== lastRenderedLength) {
27
        renderedHtml.value = md.render(raw)
28
        lastRenderedLength = raw.length
29
      }
30
    })
31
  }
32

33
  // 监听 content 变化，调度渲染
34
  const stopWatch = watch(content, scheduleRender, { flush: 'post' })
35

36
  onUnmounted(() => {
37
    stopWatch()
38
    if (rafId) cancelAnimationFrame(rafId)
39
  })
40

41
  return { renderedHtml }
42
}

这段代码的精妙之处在于：无论 token 到达频率多高，每一帧最多渲染一次。 浏览器以 60fps 运行时，渲染频率上限是 ~16.7ms/次，完全够用。而如果 token 在同一帧内到达了 3 个，它们会被合并成一次渲染。

第四步：组件实现#

1
<template>
2
  <div class="chat-container" ref="containerRef">
3
    <div class="message-list">
4
      <div
5
        v-for="msg in messages"
6
        :key="msg.id"
7
        :class="['message', `message--${msg.role}`]"
8
      >
9
        <div class="message__avatar">
10
          {{ msg.role === 'user' ? '👤' : '🤖' }}
11
        </div>
12
        <div class="message__body">
13
          <MessageContent
14
            :content="msg.content"
15
            :streaming="msg.status === 'streaming'"
16
          />
17
          <span
18
            v-if="msg.status === 'streaming'"
19
            class="cursor-blink"
20
          >▊</span>
21
        </div>
22
      </div>
23
    </div>
24

25
    <div class="input-area">
26
      <textarea
27
        v-model="input"
28
        @keydown.enter.exact.prevent="handleSend"
29
        :disabled="isStreaming"
30
        placeholder="输入消息... (Enter 发送)"
31
        rows="1"
32
      />
33
      <button
34
        v-if="isStreaming"
35
        @click="stopGeneration"
36
        class="btn-stop"
37
      >
38
        ⏹ 停止
39
      </button>
40
      <button
41
        v-else
42
        @click="handleSend"
43
        :disabled="!input.trim()"
44
        class="btn-send"
45
      >
46
        发送 ↑
47
      </button>
48
    </div>
49
  </div>
50
</template>
51

52
<script setup lang="ts">
53
import { ref, watch, nextTick } from 'vue'
54
import { useChat } from '@/composables/useChat'
55
import MessageContent from './MessageContent.vue'
56

57
const props = defineProps<{
58
  apiUrl: string
59
  apiKey: string
60
}>()
61

62
const input = ref('')
63
const containerRef = ref<HTMLElement>()
64
const { messages, isStreaming, sendMessage, stopGeneration } = useChat(
65
  props.apiUrl,
66
  props.apiKey,
67
)
68

69
function handleSend() {
70
  const text = input.value
71
  input.value = ''
72
  sendMessage(text)
73
}
74

75
// 自动滚动到底部（带节流）
76
let scrollRafId: number | null = null
77
watch(
78
  () => messages.value[messages.value.length - 1]?.content,
79
  () => {
80
    if (scrollRafId) return
81
    scrollRafId = requestAnimationFrame(() => {
82
      scrollRafId = null
83
      const el = containerRef.value
84
      if (el) {
85
        el.scrollTop = el.scrollHeight
86
      }
87
    })
88
  },
89
)
90
</script>
91

92
<style scoped>
93
.cursor-blink {
94
  animation: blink 1s step-end infinite;
95
  color: var(--primary-color, #10a37f);
96
  font-weight: bold;
97
}
98

99
@keyframes blink {
100
  50% { opacity: 0; }
101
}
102
</style>

生产环境的五个坑#

坑 1：Nginx 缓冲吃掉你的流#

Nginx 默认会缓冲上游响应（proxy_buffering on），你的 SSE 流会被 Nginx 攒够一个 buffer 才发给客户端，打字机效果变成”一段一段蹦”。

1
location /api/chat {
2
    proxy_pass http://backend;
3
    proxy_buffering off;           # 关键！
4
    proxy_cache off;
5
    proxy_set_header Connection '';
6
    proxy_http_version 1.1;
7
    chunked_transfer_encoding on;
8

9
    # SSE 超时设置（大模型可能思考很久）
10
    proxy_read_timeout 300s;
11
    proxy_send_timeout 300s;
12
}

坑 2：移动端断网重连#

移动端网络切换（Wi-Fi ↔ 4G）时，fetch 连接会静默断开。你需要在 onError 里实现指数退避重连：

1
async function connectWithRetry(
2
  options: SSEOptions,
3
  maxRetries = 3,
4
) {
5
  let retries = 0
6
  while (retries < maxRetries) {
7
    try {
8
      await connect(options)
9
      return // 正常完成
10
    } catch (error) {
11
      retries++
12
      if (retries >= maxRetries) throw error
13
      // 指数退避：1s, 2s, 4s
14
      await new Promise(r => setTimeout(r, 1000 * Math.pow(2, retries - 1)))
15
    }
16
  }
17
}

坑 3：长文本渲染的内存泄漏#

如果用户在一次对话中生成了大量文本（比如让 AI 写一篇万字论文），每次 Markdown 渲染都会生成新的 HTML 字符串，旧的字符串等待 GC 回收。在低端设备上，这可能导致内存压力。

解决方案：分段渲染。当文本超过一定长度时，将已完成的段落缓存为渲染后的 HTML，只对最后一个”正在生成”的段落做实时渲染：

1
function splitParagraphs(text: string) {
2
  const paragraphs = text.split('\n\n')
3
  const completed = paragraphs.slice(0, -1) // 已完成的段落
4
  const active = paragraphs[paragraphs.length - 1] // 正在生成的段落
5
  return { completed, active }
6
}

坑 4：代码块未闭合的 Markdown 渲染#

流式输出时，代码块经常处于”打开但未闭合”的状态：

1
这是一段代码：
2
```python
3
def hello():
4
    print("world"

此时 Markdown 解析器会把后面所有内容都当成代码块，整个界面崩掉。解决方案：在渲染前检测并临时闭合未完成的代码块：

1
function fixUnclosedCodeBlocks(text: string): string {
2
  const codeBlockRegex = /```/g
3
  const matches = text.match(codeBlockRegex)
4
  if (matches && matches.length % 2 !== 0) {
5
    // 奇数个 ```，说明有未闭合的代码块
6
    return text + '\n```'
7
  }
8
  return text
9
}

坑 5：并发请求竞态#

用户快速连续发送消息时，前一个 SSE 流还没结束，新的请求又发出去了。如果不处理，两个流的 token 会交错写入同一个消息。

解决方案：发送新消息前，强制中断上一个流：

1
async function sendMessage(content: string) {
2
  if (isStreaming.value) {
3
    sseClient.abort() // 中断上一个流
4
    await nextTick()  // 等待状态更新
5
  }
6
  // ... 正常发送逻辑
7
}

性能对比数据#

我在一个真实项目中测量了不同方案的性能差异（测试环境：M1 MacBook Pro，Chrome 126，生成 3000 字回复）：

方案	首字节感知延迟	渲染帧率	内存峰值
传统请求-响应	8.2s	N/A	12MB
SSE + 每 token 渲染	180ms	24fps（卡顿）	45MB
SSE + rAF 节流渲染	180ms	58fps	18MB
SSE + 分段渲染	180ms	60fps	15MB

可以看到，rAF 节流是投入产出比最高的优化，几行代码就从 24fps 拉到 58fps。分段渲染在长文本场景下进一步优化了内存。

完整项目结构#

1
src/
2
├── composables/
3
│   ├── useChat.ts          # 对话状态管理
4
│   ├── useSSE.ts           # SSE 客户端封装
5
│   └── useStreamRenderer.ts # 流式 Markdown 渲染
6
├── components/
7
│   ├── ChatView.vue        # 对话主界面
8
│   ├── MessageContent.vue  # 消息内容渲染
9
│   └── CodeBlock.vue       # 代码块（带复制按钮）
10
└── utils/
11
    └── markdown.ts         # Markdown 配置 + 修复工具

总结#

流式渲染不是可选项，是 AI 应用的标配。核心要点回顾：

选 SSE 不选 WebSocket——AI 对话是单向推送，SSE 更简单、更可靠
用 fetch + ReadableStream 替代 EventSource——支持 POST 和自定义 Header
rAF 节流渲染——每帧最多渲染一次，解决性能问题
处理边界情况——未闭合代码块、断网重连、并发竞态
Nginx 关闭 proxy_buffering——不然你的流式效果全白搭

这套方案已经在多个生产项目中跑了大半年，日活用户过万，没出过大问题。如果你正在做 AI 相关的前端项目，直接拿去用就行。

有问题欢迎评论区交流，我会逐一回复。

音乐

音乐