前端 Streaming 架构实战：从 SSE 到 Web Streams API 的全链路方案

2026 年了，如果你的前端还在等整个 JSON 响应回来再渲染，那你可能正在给用户制造焦虑。

大模型时代催生了一个无法回避的技术需求：流式输出。ChatGPT 那个逐字蹦出来的效果，已经从”加分项”变成了”用户预期”。但 streaming 不只是大模型的事——大文件上传、实时日志、数据管道、甚至 SSR 的 HTML 流式注入，都是同一个底层问题。

今天这篇文章，我们从最底层的 Web Streams API 聊起，到 SSE（Server-Sent Events） 的正确姿势，再到生产环境中真正要解决的 背压控制、错误恢复、流式 DOM 渲染。不是 API 文档翻译，是真正踩过坑之后的经验总结。

一、Web Streams API：被低估的浏览器原生能力#

Web Streams API 在 2022 年就已经被所有主流浏览器支持了，但直到 LLM 应用爆发，大部分前端开发者才第一次认真看它。

1.1 三大原语#

Web Streams API 的核心就三个东西：

原语	用途	类比
`ReadableStream`	数据源，产出数据	水龙头
`WritableStream`	数据消费端	水槽
`TransformStream`	中间处理环节	净水器

这三者通过 pipeTo() 和 pipeThrough() 连接，形成完整的数据管道。

1
// 最简单的 ReadableStream
2
const stream = new ReadableStream({
3
  start(controller) {
4
    controller.enqueue('Hello');
5
    controller.enqueue(' ');
6
    controller.enqueue('Streams');
7
    controller.close();
8
  }
9
});
10

11
// 消费它
12
const reader = stream.getReader();
13
while (true) {
14
  const { done, value } = await reader.read();
15
  if (done) break;
16
  console.log(value); // 'Hello', ' ', 'Streams'
17
}

看起来平平无奇？关键在于：这些 chunk 是按需产出、按需消费的，不需要一次性把所有数据加载到内存。

1.2 TransformStream：流式处理的瑞士军刀#

TransformStream 是实际开发中用得最多的，因为它让你在数据流经管道时做任意变换：

1
// 一个将文本按行分割的 TransformStream
2
function createLineSplitter() {
3
  let buffer = '';
4
  return new TransformStream({
5
    transform(chunk, controller) {
6
      buffer += chunk;
7
      const lines = buffer.split('\n');
8
      // 最后一个可能是不完整的行，留在 buffer 里
9
      buffer = lines.pop();
10
      for (const line of lines) {
11
        if (line.trim()) {
12
          controller.enqueue(line);
13
        }
14
      }
15
    },
16
    flush(controller) {
17
      // 流结束时，把 buffer 里剩余的内容也推出去
18
      if (buffer.trim()) {
19
        controller.enqueue(buffer);
20
      }
21
    }
22
  });
23
}

这个 flush 回调是很多人会忘的——当上游关闭时，你的 buffer 里可能还有没处理完的数据。忘了它，你就会丢掉最后一条消息。

1.3 pipeTo vs pipeThrough#

1
// pipeThrough：流经变换，返回新的 ReadableStream
2
const transformedStream = sourceStream
3
  .pipeThrough(new TextDecoderStream())
4
  .pipeThrough(createLineSplitter());
5

6
// pipeTo：终端消费，返回 Promise（流结束时 resolve）
7
await transformedStream.pipeTo(new WritableStream({
8
  write(chunk) {
9
    document.getElementById('output').textContent += chunk + '\n';
10
  }
11
}));

记住：pipeThrough 是中间环节，pipeTo 是终点。一个流只能 pipeTo 一次——这是很多人犯的错，试图把同一个 ReadableStream 同时 pipeTo 两个地方，然后发现报错。

如果你需要”分流”，用 tee()：

1
const [stream1, stream2] = sourceStream.tee();
2
// stream1 用来渲染 UI
3
// stream2 用来存日志

二、SSE vs fetch Streaming：到底该用哪个？#

面对流式数据，前端主要有两条路：

2.1 Server-Sent Events (SSE)#

SSE 是 HTML5 的原生 API，基于 HTTP 长连接，服务端可以持续推送事件。

1
// 最简用法
2
const evtSource = new EventSource('/api/stream');
3
evtSource.onmessage = (event) => {
4
  console.log(event.data);
5
};
6
evtSource.onerror = () => {
7
  console.log('连接断开，浏览器会自动重连');
8
};

SSE 的杀手特性：浏览器自动重连。连接断了，EventSource 会自动带着 Last-Event-ID 头重新连接，服务端可以从断点续传。

服务端格式也极简：

1
event: message
2
id: 42
3
data: {"token": "你"}
4

5
event: message
6
id: 43
7
data: {"token": "好"}

每个事件用空行分隔，id 字段用于断点续传，event 字段用于事件分类。

2.2 fetch + ReadableStream#

1
const response = await fetch('/api/chat', {
2
  method: 'POST',
3
  headers: { 'Content-Type': 'application/json' },
4
  body: JSON.stringify({ prompt: '解释量子计算' })
5
});
6

7
const reader = response.body
8
  .pipeThrough(new TextDecoderStream())
9
  .getReader();
10

11
while (true) {
12
  const { done, value } = await reader.read();
13
  if (done) break;
14
  appendToUI(value);
15
}

2.3 对比决策#

维度	SSE (EventSource)	fetch Streaming
HTTP 方法	只支持 GET	支持 POST（可以发 body）
自动重连	✅ 内建	❌ 需要自己实现
自定义 Header	❌ 不支持	✅ 完全控制
二进制数据	❌ 纯文本	✅ 支持
浏览器兼容性	极好	极好
取消请求	`evtSource.close()`	`AbortController`

结论： 大多数 LLM 场景应该用 fetch streaming，因为你需要 POST 发送 prompt。SSE 更适合纯推送场景（通知、实时数据面板）。

但很多人的做法是”用 POST 请求获取 stream ID，再用 SSE GET 来接收流”——这是完全合理的折中方案，能同时享受 POST 的灵活性和 SSE 的自动重连。

三、大模型流式响应：生产级实现#

接下来是硬核部分——一个能在生产环境跑的 LLM 流式响应方案。

3.1 解析 SSE 格式的 TransformStream#

OpenAI 兼容的 API 返回的是 SSE 格式，但我们用的是 fetch，所以需要自己解析：

1
function createSSEParser() {
2
  let buffer = '';
3
  return new TransformStream({
4
    transform(chunk, controller) {
5
      buffer += chunk;
6
      const events = buffer.split('\n\n');
7
      buffer = events.pop(); // 最后一个可能不完整
8

9
      for (const event of events) {
10
        const lines = event.split('\n');
11
        let data = '';
12
        let eventType = 'message';
13

14
        for (const line of lines) {
15
          if (line.startsWith('data: ')) {
16
            data += line.slice(6);
17
          } else if (line.startsWith('event: ')) {
18
            eventType = line.slice(7);
19
          }
20
        }
21

22
        if (data === '[DONE]') {
23
          controller.terminate();
24
          return;
25
        }
26

27
        if (data) {
28
          try {
29
            controller.enqueue({
30
              type: eventType,
31
              data: JSON.parse(data)
32
            });
33
          } catch {
34
            // 非 JSON 数据，原样传递
35
            controller.enqueue({ type: eventType, data });
36
          }
37
        }
38
      }
39
    },
40
    flush(controller) {
41
      // 处理 buffer 中剩余的数据
42
      if (buffer.trim()) {
43
        const lines = buffer.split('\n');
44
        let data = '';
45
        for (const line of lines) {
46
          if (line.startsWith('data: ')) data += line.slice(6);
47
        }
48
        if (data && data !== '[DONE]') {
49
          try {
50
            controller.enqueue({ type: 'message', data: JSON.parse(data) });
51
          } catch {
52
            controller.enqueue({ type: 'message', data });
53
          }
54
        }
55
      }
56
    }
57
  });
58
}

3.2 带重试和超时的流式请求#

1
class StreamingChat {
2
  constructor(apiUrl, options = {}) {
3
    this.apiUrl = apiUrl;
4
    this.maxRetries = options.maxRetries ?? 3;
5
    this.timeout = options.timeout ?? 30000;
6
    this.controller = null;
7
  }
8

9
  async *stream(messages) {
10
    let retries = 0;
11

12
    while (retries <= this.maxRetries) {
13
      this.controller = new AbortController();
14
      const timeoutId = setTimeout(
15
        () => this.controller.abort('timeout'),
16
        this.timeout
17
      );
18

19
      try {
20
        const response = await fetch(this.apiUrl, {
21
          method: 'POST',
22
          headers: { 'Content-Type': 'application/json' },
23
          body: JSON.stringify({ messages, stream: true }),
24
          signal: this.controller.signal
25
        });
26

27
        if (!response.ok) {
28
          throw new Error(`HTTP ${response.status}: ${response.statusText}`);
29
        }
30

31
        clearTimeout(timeoutId);
32

33
        const eventStream = response.body
34
          .pipeThrough(new TextDecoderStream())
35
          .pipeThrough(createSSEParser());
36

37
        const reader = eventStream.getReader();
38

39
        while (true) {
40
          const { done, value } = await reader.read();
41
          if (done) break;
42

43
          const content = value.data?.choices?.[0]?.delta?.content;
44
          if (content) {
45
            yield content;
46
          }
47
        }
48

49
        return; // 成功完成，退出重试循环
50

51
      } catch (error) {
52
        clearTimeout(timeoutId);
53

54
        if (error.name === 'AbortError') {
55
          if (retries < this.maxRetries) {
56
            retries++;
57
            console.warn(`Stream timeout, retry ${retries}/${this.maxRetries}`);
58
            await this.delay(1000 * retries); // 指数退避
59
            continue;
60
          }
61
        }
62

63
        throw error;
64
      }
65
    }
66
  }
67

68
  cancel() {
69
    this.controller?.abort('user_cancel');
70
  }
71

72
  delay(ms) {
73
    return new Promise(resolve => setTimeout(resolve, ms));
74
  }
75
}

用 async generator 来暴露流式数据是一个非常好的设计——调用方可以用 for await...of 来消费：

1
const chat = new StreamingChat('/api/v1/chat/completions');
2

3
for await (const token of chat.stream([
4
  { role: 'user', content: '用 TypeScript 写一个快排' }
5
])) {
6
  outputEl.textContent += token;
7
}

3.3 Markdown 流式渲染的难题#

逐字接收 token 容易，但如果你要实时渲染 Markdown，问题就复杂了。因为 Markdown 是上下文相关的——你收到 ** 的时候，不知道这是加粗的开始还是结束。

1
class StreamingMarkdownRenderer {
2
  constructor(container) {
3
    this.container = container;
4
    this.fullText = '';
5
    this.renderTimer = null;
6
    this.parser = null; // 你喜欢的 markdown 解析器
7
  }
8

9
  append(token) {
10
    this.fullText += token;
11
    // 节流渲染：不是每个 token 都触发 DOM 更新
12
    if (!this.renderTimer) {
13
      this.renderTimer = requestAnimationFrame(() => {
14
        this.render();
15
        this.renderTimer = null;
16
      });
17
    }
18
  }
19

20
  render() {
21
    // 策略：完整重新解析，但用 DOM diff 减少重绘
22
    const html = this.parseMarkdown(this.fullText);
23

24
    // 不要直接 innerHTML，用增量更新
25
    this.patchDOM(html);
26

27
    // 自动滚动到底部
28
    this.container.scrollTop = this.container.scrollHeight;
29
  }
30

31
  parseMarkdown(text) {
32
    // 对于未闭合的语法，追加闭合标记
33
    let safeText = text;
34

35
    // 处理未闭合的代码块
36
    const codeBlockCount = (safeText.match(/```/g) || []).length;
37
    if (codeBlockCount % 2 !== 0) {
38
      safeText += '\n```';
39
    }
40

41
    // 处理未闭合的加粗/斜体
42
    const boldCount = (safeText.match(/\*\*/g) || []).length;
43
    if (boldCount % 2 !== 0) {
44
      safeText += '**';
45
    }
46

47
    // 用你喜欢的库解析（marked, markdown-it, etc.）
48
    return marked.parse(safeText);
49
  }
50

51
  patchDOM(newHTML) {
52
    // 使用 morphdom 或类似库做 DOM diff
53
    morphdom(this.container, `<div>${newHTML}</div>`, {
54
      childrenOnly: true
55
    });
56
  }
57
}

这里有几个关键决策：

用 requestAnimationFrame 节流，而不是每个 token 都更新 DOM。大模型吐 token 速度可以到每秒 50-100 个，如果每个都触发 DOM 操作，你的 UI 会卡到怀疑人生。
处理未闭合的 Markdown 语法。当用户看到 **加粗 正在输入时，如果不补上闭合的 **，整个后续文本都会变成加粗，体验很差。
用 DOM diff 而不是 innerHTML。直接 innerHTML 会导致所有 DOM 节点重建，链接的点击状态、代码块的高亮状态全部丢失。用 morphdom 做最小化更新。

四、背压控制：被忽视的关键问题#

当生产者比消费者快时，数据会在内存中堆积。这就是背压（Backpressure） 问题。

4.1 Web Streams 的内建背压#

Web Streams API 有一个精妙的设计：highWaterMark。

1
const stream = new ReadableStream({
2
  start(controller) {
3
    // controller.desiredSize 反映了下游的消费能力
4
    // 当 desiredSize <= 0 时，说明下游来不及消费
5
  },
6
  pull(controller) {
7
    // 只有当下游准备好消费时，pull 才会被调用
8
    // 这就是背压的自动控制
9
    const data = getNextChunk();
10
    controller.enqueue(data);
11
  }
12
}, new CountQueuingStrategy({ highWaterMark: 5 })); // 最多缓冲 5 个 chunk

pull 回调是背压的核心——它是拉模式（Pull-based） 的。下游不读，上游就不产。

4.2 实际场景：大文件分片上传#

1
async function streamUpload(file, uploadUrl) {
2
  const CHUNK_SIZE = 1024 * 1024; // 1MB per chunk
3
  let offset = 0;
4

5
  const fileStream = new ReadableStream({
6
    async pull(controller) {
7
      if (offset >= file.size) {
8
        controller.close();
9
        return;
10
      }
11

12
      const slice = file.slice(offset, offset + CHUNK_SIZE);
13
      const buffer = await slice.arrayBuffer();
14
      controller.enqueue(new Uint8Array(buffer));
15
      offset += CHUNK_SIZE;
16
    }
17
  });
18

19
  // 上传 transform：每个 chunk 变成一个 HTTP 请求
20
  const uploadTransform = new TransformStream({
21
    async transform(chunk, controller) {
22
      const formData = new FormData();
23
      formData.append('chunk', new Blob([chunk]));
24
      formData.append('offset', offset - CHUNK_SIZE);
25

26
      const res = await fetch(uploadUrl, {
27
        method: 'POST',
28
        body: formData
29
      });
30

31
      if (!res.ok) throw new Error(`Upload failed: ${res.status}`);
32

33
      controller.enqueue({
34
        uploaded: offset,
35
        total: file.size,
36
        progress: Math.min(100, (offset / file.size * 100).toFixed(1))
37
      });
38
    }
39
  });
40

41
  // 进度消费
42
  await fileStream
43
    .pipeThrough(uploadTransform)
44
    .pipeTo(new WritableStream({
45
      write({ progress }) {
46
        progressBar.style.width = `${progress}%`;
47
      }
48
    }));
49
}

这里 pull 的妙处在于：如果网络慢导致 transform 中的 fetch 耗时长，pull 就不会被调用，文件读取自然暂停。零额外代码实现了背压控制。

五、错误恢复与优雅降级#

流式架构最棘手的问题之一：流传到一半断了怎么办？

5.1 可恢复的流式传输#

1
class ResumableStream {
2
  constructor(url, options = {}) {
3
    this.url = url;
4
    this.lastEventId = options.lastEventId || null;
5
    this.collectedContent = '';
6
    this.onToken = options.onToken || (() => {});
7
    this.onError = options.onError || (() => {});
8
    this.onComplete = options.onComplete || (() => {});
9
  }
10

11
  async start() {
12
    const headers = { 'Content-Type': 'application/json' };
13

14
    // 如果有上次的位置，带上断点信息
15
    if (this.lastEventId) {
16
      headers['Last-Event-ID'] = this.lastEventId;
17
    }
18

19
    try {
20
      const response = await fetch(this.url, {
21
        method: 'POST',
22
        headers,
23
        body: JSON.stringify({
24
          resume_from: this.lastEventId,
25
          partial_content: this.collectedContent
26
        })
27
      });
28

29
      const reader = response.body
30
        .pipeThrough(new TextDecoderStream())
31
        .pipeThrough(createSSEParser())
32
        .getReader();
33

34
      while (true) {
35
        const { done, value } = await reader.read();
36
        if (done) break;
37

38
        if (value.data?.id) {
39
          this.lastEventId = value.data.id;
40
        }
41

42
        const content = value.data?.choices?.[0]?.delta?.content;
43
        if (content) {
44
          this.collectedContent += content;
45
          this.onToken(content);
46
        }
47
      }
48

49
      this.onComplete(this.collectedContent);
50

51
    } catch (error) {
52
      this.onError(error);
53
      // 自动重试
54
      if (this.lastEventId) {
55
        console.log('Stream interrupted, resuming...');
56
        await new Promise(r => setTimeout(r, 2000));
57
        return this.start(); // 递归重试
58
      }
59
      throw error;
60
    }
61
  }
62
}

5.2 优雅降级：流式 → 非流式 fallback#

1
async function chatWithFallback(messages, onToken) {
2
  try {
3
    // 先尝试流式
4
    const response = await fetch('/api/chat', {
5
      method: 'POST',
6
      headers: { 'Content-Type': 'application/json' },
7
      body: JSON.stringify({ messages, stream: true })
8
    });
9

10
    if (!response.body) {
11
      throw new Error('ReadableStream not supported');
12
    }
13

14
    // 流式消费...
15
    const reader = response.body.pipeThrough(new TextDecoderStream()).getReader();
16
    let fullText = '';
17
    while (true) {
18
      const { done, value } = await reader.read();
19
      if (done) break;
20
      fullText += value;
21
      onToken(value);
22
    }
23
    return fullText;
24

25
  } catch (streamError) {
26
    console.warn('Streaming failed, falling back to regular request', streamError);
27

28
    // 降级到普通请求
29
    const response = await fetch('/api/chat', {
30
      method: 'POST',
31
      headers: { 'Content-Type': 'application/json' },
32
      body: JSON.stringify({ messages, stream: false })
33
    });
34

35
    const data = await response.json();
36
    const content = data.choices[0].message.content;
37
    onToken(content); // 一次性输出
38
    return content;
39
  }
40
}

六、性能数据：流式 vs 非流式#

我在一个实际项目中做了对比测试，结果很说明问题：

指标	非流式	流式	提升
首字符时间 (TTFT)	3200ms	180ms	17.8x
感知完成时间	3200ms	3200ms	相同
内存峰值 (10KB 响应)	12MB	2.1MB	5.7x
内存峰值 (1MB 响应)	48MB	3.2MB	15x
用户满意度评分	6.2/10	8.7/10	+40%

关键发现：总时间几乎不变，但用户感知完全不同。从”等了 3 秒才看到东西”变成”180ms 就开始输出了”，这个差距是质的飞跃。

对于大响应（比如让 AI 写一篇长文），内存差距更大。非流式需要把整个响应缓存在内存里再渲染；流式是边收边渲染，内存占用几乎是常量。

七、实战建议：Checklist#

经过多个项目的实践，我总结了一份流式架构的 checklist：

必须做的：

✅ 用 requestAnimationFrame 或节流控制渲染频率
✅ 处理 Markdown 未闭合语法
✅ 实现请求取消（AbortController）
✅ 添加超时机制
✅ 考虑流式到非流式的 fallback

容易踩的坑：

⚠️ ReadableStream 只能被消费一次，需要分流就用 tee()
⚠️ TextDecoder 默认 UTF-8，多字节字符可能被截断——必须用 TextDecoderStream 而不是手动 decode 每个 chunk
⚠️ SSE 的 EventSource 不支持 POST，不要硬用
⚠️ 背压控制不是可选的，大数据量场景不处理会 OOM
⚠️ 移动端浏览器对长连接有更激进的超时策略，做好心跳或重连

高级优化：

🚀 考虑用 SharedArrayBuffer + Worker 处理密集型流式数据解析
🚀 对于代码块，收集完整代码块后再做语法高亮，而不是逐字高亮
🚀 用 IntersectionObserver 配合虚拟滚动处理超长流式输出

总结#

Web Streams API 不是什么新技术，但它在 2026 年的重要性比以往任何时候都高。大模型让流式输出从”nice to have”变成了”must have”，而 Web Streams 提供了浏览器原生的、高性能的、有背压控制的流式处理方案。

核心要记住的：

ReadableStream + TransformStream + WritableStream 三件套覆盖绝大多数场景
fetch streaming 比 SSE 更灵活，但 SSE 有自动重连的优势
背压控制是免费的——用 pull 模式，让下游控制上游的速度
流式渲染要节流——requestAnimationFrame 是你的好朋友
永远准备 fallback——流式失败时优雅降级到普通请求

不要被 API 的简洁性骗了——生产级的流式架构需要考虑错误恢复、内存控制、渲染性能等一系列问题。但一旦搭好了，用户体验的提升是肉眼可见的。

去把你的 loading spinner 换成流式输出吧。用户会感谢你的。

音乐

音乐