踩坑三天，我终于搞懂了如何让多个AI助手在浏览器里“和平共处“-洪萨配资

一次惊心动魄的架构重构

说实话，当我第一次看到 Claude Code CLI、Codex CLI、GitHub Copilot CLI 这些工具的时候，我就在想：能不能把它们都整合到一个 Web 平台上，让用户随时随地通过浏览器就能调用这些 AI 助手？

听起来很美好对吧？但当我真正动手的时候，才发现这是个巨坑。

那是一个周五的晚上，距离上线还有不到 12 小时。我盯着屏幕上疯狂滚动的日志，心里只有一个念头：为什么 Codex 的输出格式和 Claude Code 完全不一样？为什么会话恢复功能在 Codex 上能用，在 OpenCode 上就挂了？

更要命的是，用户在移动端打开页面时，整个界面直接崩了——原来是 Safari 的 100vh 问题导致虚拟键盘弹出后，输入框被遮住了。

那一刻我才意识到：这不是简单的"调用几个 CLI 工具"的问题，而是一场关于架构设计、流式解析、进程管理、跨平台兼容的硬仗。

第一个坑：如何优雅地解析"千奇百怪"的CLI输出？

问题的本质：每个CLI工具都是一朵"奇葩"

咱们先聊聊最核心的问题：如何统一处理不同 CLI 工具的输出？

你可能会说：不就是读取标准输出嘛，有什么难的？

但现实是：

Codex输出的是 JSONL 格式（每行一个 JSON 对象），事件类型包括thread.started、turn.completed、item.updated等
Claude Code输出的是 stream-json 格式，事件类型是init、message、tool_use、result等
OpenCode又是另一套格式，事件类型是session_start、step_start、text、complete等

更坑的是，Codex 会把正常输出也输出到 stderr，而不是 stdout！如果你简单地把 stderr 当作错误流处理，那用户就什么都看不到了。

我的解决方案：适配器模式 + 工厂模式

经过三天的折腾，我最终采用了适配器模式来解决这个问题。核心思路是：为每个 CLI 工具创建一个适配器，把它们的输出统一转换成标准格式。

先看看我定义的适配器接口：

public interface ICliToolAdapter { // 支持的工具ID列表 string[] SupportedToolIds { get; } // 是否支持流式JSON解析 bool SupportsStreamParsing { get; } // 构建命令行参数（支持会话恢复） string BuildArguments(CliToolConfig tool, string prompt, CliSessionContext context); // 解析输出行为标准事件 CliOutputEvent? ParseOutputLine(string line); // 提取会话ID（用于会话恢复） string? ExtractSessionId(CliOutputEvent outputEvent); // 提取助手消息内容 string? ExtractAssistantMessage(CliOutputEvent outputEvent); }

这个接口的设计有几个关键点：

BuildArguments方法支持会话恢复：通过CliSessionContext传入上一次的会话ID，适配器会自动构建恢复命令（比如 Codex 的resume session_id）
ParseOutputLine方法负责解析：每个适配器根据自己的输出格式，把原始文本转换成统一的CliOutputEvent对象
ExtractSessionId方法提取会话ID：这是实现会话恢复的关键，不同工具的会话ID字段名不一样（Codex 叫thread_id，Claude Code 叫session_id），适配器负责统一提取

以Codex为例：如何解析JSONL输出？

Codex 的输出是 JSONL 格式，每行一个 JSON 对象。但坑的是，它会混入一些非 JSON 的日志行，比如：

2026-01-23T10:30:45Z ERROR rmcp::client: Connection failed {"type":"thread.started","thread_id":"abc123"} {"type":"item.updated","item":{"type":"todo_list","items":[...]}} Error: Failed to execute command

如果你直接用JsonDocument.Parse解析每一行，遇到非 JSON 行就会抛异常，导致整个流程中断。

我的解决方案是：先判断行首字符，只有以{或[开头的才尝试 JSON 解析，其他的当作普通日志处理。

public CliOutputEvent? ParseOutputLine(string line) { var trimmed = line.Trim(); // 非JSON行的处理逻辑 if (!trimmed.StartsWith("{") && !trimmed.StartsWith("[")) { // 判断是否是错误日志 var isError = trimmed.Contains("ERROR", StringComparison.OrdinalIgnoreCase) || trimmed.Contains("FATAL", StringComparison.OrdinalIgnoreCase); return new CliOutputEvent { EventType = isError ? "error" : "raw", IsError = isError, Content = trimmed }; } // JSON行的解析逻辑 try { using var document = JsonDocument.Parse(trimmed); var root = document.RootElement; var eventType = root.GetProperty("type").GetString(); // 根据事件类型分别处理... } catch (JsonException) { // 兜底：避免解析失败污染UI return new CliOutputEvent { EventType = "raw", Content = trimmed }; } }

这个设计的精妙之处在于：即使遇到无法解析的行，也不会中断整个流程，而是优雅地降级为普通文本输出。

工厂模式：让适配器自动匹配

有了适配器之后，下一个问题是：如何根据用户选择的工具，自动选择对应的适配器？

我设计了一个ICliAdapterFactory工厂类：

public class CliAdapterFactory : ICliAdapterFactory { private readonly List<ICliToolAdapter> _adapters; public CliAdapterFactory() { // 注册所有适配器 _adapters = new List<ICliToolAdapter> { new CodexAdapter(), new ClaudeCodeAdapter(), new OpenCodeAdapter() }; } public ICliToolAdapter? GetAdapter(CliToolConfig tool) { // 遍历所有适配器，找到第一个能处理该工具的 return _adapters.FirstOrDefault(a => a.CanHandle(tool)); } }

这样，当用户选择 Codex 时，工厂会自动返回CodexAdapter；选择 Claude Code 时，返回ClaudeCodeAdapter。整个过程对上层业务逻辑完全透明。

第二个坑：如何实现"会话恢复"功能？

为什么需要会话恢复？

想象一下这个场景：你在用 Codex 写代码，写到一半突然想起要去开会。等你回来，刷新了页面，之前的对话历史全没了，AI 也不记得你之前说了什么。

这就是无状态 Web 应用的痛点：每次刷新页面，前端状态全部丢失。

但 Codex 和 Claude Code 这些 CLI 工具本身是支持会话恢复的！比如 Codex 可以通过codex exec resume <thread_id>命令恢复之前的会话。

问题是：如何在 Web 应用中实现这个功能？

我的解决方案：三层存储 + 适配器协同

我设计了一个三层存储架构：

前端 IndexedDB：存储用户的对话历史、工作区文件等（支持离线访问）
后端 SQLite 数据库：存储会话元数据、CLI Thread ID 等
内存缓存：存储当前活跃会话的 CLI Thread ID（提高查询性能）

核心流程是这样的：

用户发送消息 ↓ 前端调用后端 API ↓ 后端检查是否有 CLI Thread ID（从内存缓存或数据库读取） ↓ 如果有，调用适配器的 BuildArguments 方法，传入 CliSessionContext ↓ 适配器根据 context.IsResume 和 context.CliThreadId 构建恢复命令 ↓ 执行 CLI 命令，解析输出 ↓ 如果输出中包含新的 Thread ID，更新缓存和数据库

看看 Codex 适配器是如何构建恢复命令的：

public string BuildArguments(CliToolConfig tool, string prompt, CliSessionContext context) { var escapedPrompt = EscapeJsonString(prompt); // 构建会话恢复参数 var sessionArg = string.Empty; if (context.IsResume && !string.IsNullOrEmpty(context.CliThreadId)) { sessionArg = $"resume {context.CliThreadId}"; } // 替换模板占位符 var result = tool.ArgumentTemplate .Replace("{prompt}", escapedPrompt) .Replace("{session}", sessionArg) .Trim(); return result; }

这个设计的巧妙之处在于：适配器不仅负责解析输出，还负责构建命令。这样，会话恢复的逻辑就完全封装在适配器内部，上层代码只需要传入CliSessionContext，不需要关心具体的命令格式。

一个关键细节：如何从输出中提取Thread ID？

Codex 的输出中，Thread ID 藏在thread.started事件里：

{"type":"thread.started","thread_id":"abc123"}

但 Claude Code 的输出格式完全不同：

{"type":"init","session_id":"xyz789"}

如果你硬编码去解析thread_id字段，那 Claude Code 就挂了。

我的解决方案是：让适配器负责提取 Session ID。

public string? ExtractSessionId(CliOutputEvent outputEvent) { // Codex 的 Session ID 存储在 SessionId 属性中 return outputEvent.SessionId; }

在解析输出时，适配器会自动把thread_id或session_id提取到CliOutputEvent.SessionId属性中。上层代码只需要调用ExtractSessionId方法，就能拿到统一的会话ID。

这就是适配器模式的威力：把差异封装在适配器内部，对外提供统一的接口。

第三个坑：如何处理"持久化进程"和"一次性进程"？

问题的本质：性能 vs 简单性

在实现 CLI 执行时，我遇到了一个两难的选择：

一次性进程模式：每次用户发送消息，都启动一个新的 CLI 进程，执行完就销毁。优点是简单可靠，缺点是启动慢（每次都要初始化 Python 环境、加载模型等）
持久化进程模式：启动一个长期运行的 CLI 进程，用户每次发送消息时，通过标准输入发送命令，从标准输出读取结果。优点是快（省去了启动开销），缺点是复杂（需要处理进程管理、输入输出同步等问题）

最开始，我选择了简单的一次性进程模式。但用户反馈说：每次发送消息都要等 5-10 秒，体验太差了！

于是我开始研究持久化进程模式。

持久化进程的核心挑战：如何判断输出结束？

持久化进程最大的坑在于：你不知道 CLI 什么时候输出完了。

在一次性进程模式下，进程退出就代表输出结束。但在持久化进程模式下，进程一直在运行，你怎么知道这次命令的输出已经结束了？

我尝试了几种方案：

等待特定的结束标记：比如 Codex 输出{"type":"turn.completed"}就代表结束。但问题是，不同工具的结束标记不一样，而且有些工具根本没有结束标记。
设置超时时间：如果 2 秒内没有新输出，就认为结束了。但这个方案有个致命缺陷：如果 AI 正在思考（比如生成代码），可能会超过 2 秒没有输出，导致误判。
结合事件类型判断：通过适配器解析输出事件，当遇到turn.completed或result等结束事件时，认为输出结束。

最终我采用了方案 3 + 方案 2 的组合：优先根据事件类型判断，如果没有明确的结束事件，则使用超时机制兜底。

private async IAsyncEnumerable<StreamOutputChunk> ReadPersistentProcessOutputAsync( PersistentProcessInfo processInfo, CancellationToken cancellationToken) { var lastOutputTime = DateTime.UtcNow; var noOutputTimeout = TimeSpan.FromSeconds(2); while (!cancellationToken.IsCancellationRequested) { bool hasNewOutput = false; // 尝试读取标准输出 if (outputReader.Peek() >= 0) { int bytesRead = await outputReader.ReadAsync(buffer, 0, buffer.Length); if (bytesRead > 0) { var content = new string(buffer, 0, bytesRead); lastOutputTime = DateTime.UtcNow; hasNewOutput = true; yield return new StreamOutputChunk { Content = content }; } } // 检查是否超时无输出 if (!hasNewOutput && (DateTime.UtcNow - lastOutputTime) > noOutputTimeout) { break; // 输出结束 } await Task.Delay(50, cancellationToken); // 短暂等待，避免CPU占用过高 } }

这个设计的关键在于：通过lastOutputTime记录最后一次输出的时间，如果超过 2 秒没有新输出，就认为结束了。同时，每 50 毫秒检查一次，避免 CPU 占用过高。

进程管理：如何避免进程泄漏？

持久化进程还有一个坑：如果用户关闭了浏览器，后端的 CLI 进程还在运行，怎么办？

我设计了一个PersistentProcessManager类，负责管理所有持久化进程：

public class PersistentProcessManager { private readonly Dictionary<string, PersistentProcessInfo> _processes = new(); public PersistentProcessInfo GetOrCreateProcess( string sessionId, string toolId, CliToolConfig tool, string workingDirectory) { var key = $"{sessionId}_{toolId}"; if (_processes.TryGetValue(key, out var existing) && existing.IsRunning) { return existing; // 复用已有进程 } // 创建新进程 var process = StartProcess(tool, workingDirectory); var processInfo = new PersistentProcessInfo { Process = process, SessionId = sessionId, ToolId = toolId, CreatedAt = DateTime.UtcNow }; _processes[key] = processInfo; return processInfo; } public void CleanupIdleProcesses(TimeSpan idleTimeout) { var now = DateTime.UtcNow; var toRemove = _processes .Where(kvp => (now - kvp.Value.LastUsedAt) > idleTimeout) .Select(kvp => kvp.Key) .ToList(); foreach (var key in toRemove) { var processInfo = _processes[key]; processInfo.Process.Kill(); processInfo.Process.Dispose(); _processes.Remove(key); } } }

这个设计有两个关键点：

进程复用：同一个会话的同一个工具，只会创建一个进程。后续的请求会复用这个进程，避免重复启动。
定时清理：通过CleanupIdleProcesses方法，定期清理超过一定时间没有使用的进程，避免进程泄漏。

第四个坑：移动端适配——Safari的100vh问题

问题的本质：虚拟键盘会改变视口高度

当我以为后端的坑都填完了，准备庆祝的时候，测试同学发了一张截图：在 iPhone 上打开页面，输入框被虚拟键盘遮住了，根本看不到！

我一开始以为是 CSS 的问题，但仔细研究后发现：这是 Safari 的一个"特性"。

在桌面浏览器上，100vh就是视口高度。但在移动端 Safari 上，100vh包括了地址栏和工具栏的高度。当虚拟键盘弹出时，视口高度会变小，但100vh的值不会变，导致页面底部被键盘遮住。

更坑的是，Safari 还有刘海屏的问题：iPhone X 以后的机型，顶部有刘海，底部有横条，如果你的内容顶到边缘，就会被遮住。

我的解决方案：动态计算视口高度 + safe-area-inset

我写了一个 JavaScript 函数，动态计算真实的视口高度：

function setRealViewportHeight() { // 获取真实的视口高度（不包括地址栏） const vh = window.innerHeight * 0.01; document.documentElement.style.setProperty('--vh', `${vh}px`); } // 初始化 setRealViewportHeight(); // 监听窗口大小变化（包括虚拟键盘弹出） window.addEventListener('resize', setRealViewportHeight); window.addEventListener('orientationchange', setRealViewportHeight);

然后在 CSS 中使用这个变量：

.page-container { height: calc(var(--vh, 1vh) * 100); padding-top: env(safe-area-inset-top); /* 适配刘海屏 */ padding-bottom: env(safe-area-inset-bottom); /* 适配底部横条 */ }

这个方案的核心思路是：用 JavaScript 动态计算真实的视口高度，存储在 CSS 变量中，然后在样式中使用这个变量。同时，使用env(safe-area-inset-*)适配刘海屏和底部横条。

另一个细节：触摸目标的大小

移动端还有一个容易忽略的问题：触摸目标太小，用户点不准。

苹果的人机界面指南建议：触摸目标的最小尺寸应该是 44x44 像素。但很多开发者习惯用桌面端的尺寸（比如 32x32），导致移动端体验很差。

我在设计移动端界面时，严格遵守了这个规范：

.mobile-button { min-width: 44px; min-height: 44px; padding: 12px 16px; font-size: 16px; /* 避免 iOS 自动缩放 */ }

这个细节看起来不起眼，但对用户体验的影响是巨大的。如果你的按钮太小，用户需要点好几次才能点中，体验会非常糟糕。

第五个坑：流式输出的性能优化

问题的本质：频繁的DOM更新导致卡顿

当 AI 开始输出代码时，前端会收到大量的流式数据。最开始，我的实现是：每收到一个字符，就更新一次 DOM。

结果用户反馈说：页面卡得要死，输入框都点不动了！

我用 Chrome DevTools 分析了一下，发现问题出在：频繁的 DOM 更新导致浏览器不断重排（reflow）和重绘（repaint），CPU 占用率飙升到 100%。

我的解决方案：防抖 + 虚拟滚动 + Markdown缓存

我采用了三个优化策略：

1. 防抖（Debounce）：减少DOM更新频率

不要每收到一个字符就更新 DOM，而是积累一定数量的字符（或等待一定时间）后，批量更新。

private System.Threading.Timer? _updateTimer; private readonly object _updateLock = new object(); private bool _hasPendingUpdate = false; private void QueueUpdate() { lock (_updateLock) { _hasPendingUpdate = true; // 如果定时器不存在，创建一个 if (_updateTimer == null) { _updateTimer = new System.Threading.Timer(_ => { lock (_updateLock) { if (_hasPendingUpdate) { _hasPendingUpdate = false; InvokeAsync(StateHasChanged); // 批量更新UI } } }, null, 100, 100); // 每100ms更新一次 } } }

这个设计的核心思路是：用一个定时器，每 100ms 检查一次是否有待更新的内容。如果有，就调用StateHasChanged更新 UI。这样，即使 AI 每秒输出 1000 个字符，UI 也只会更新 10 次，大大减少了 DOM 操作的次数。

2. 虚拟滚动：只渲染可见区域

当输出内容很多时（比如几千行代码），如果全部渲染到 DOM 中，会导致页面非常卡顿。

我采用了虚拟滚动的思路：只渲染用户当前可见的内容，其他内容用占位符代替。

private const int InitialDisplayCount = 20; // 初始显示20条 private const int LoadMoreCount = 10; // 每次加载10条 private int _displayedEventCount = InitialDisplayCount; private List<JsonlDisplayItem> GetVisibleEvents() { // 只返回前 N 条事件 return _jsonlEvents.Take(_displayedEventCount).ToList(); } private async Task LoadMoreEvents() { _displayedEventCount += LoadMoreCount; await InvokeAsync(StateHasChanged); }

用户滚动到底部时，自动加载更多内容。这样，即使有 1000 条事件，DOM 中也只有 20-30 条，性能大幅提升。

3. Markdown缓存：避免重复渲染

Markdown 渲染是一个比较耗时的操作。如果每次更新 UI 都重新渲染一遍 Markdown，会导致性能问题。

我设计了一个简单的缓存机制：

private readonly Dictionary<string, MarkupString> _markdownCache = new(); private MarkupString RenderMarkdown(string? markdown) { if (string.IsNullOrWhiteSpace(markdown)) return new MarkupString(string.Empty); // 使用缓存避免重复渲染 if (_markdownCache.TryGetValue(markdown, out var cached)) return cached; var html = Markdown.ToHtml(markdown, _markdownPipeline); var result = new MarkupString(html); // 限制缓存大小，避免内存占用过大 if (_markdownCache.Count > 100) _markdownCache.Clear(); _markdownCache[markdown] = result; return result; }

这个设计的核心思路是：用一个字典缓存已经渲染过的 Markdown 内容。如果同一段 Markdown 被多次渲染（比如用户滚动页面时），直接返回缓存的结果，避免重复计算。

同时，为了避免缓存占用过多内存，当缓存条目超过 100 个时，清空缓存。

第六个坑：工作区隔离——如何避免用户之间的文件冲突？

问题的本质：多用户共享同一个工作目录

最开始，我的实现是：所有用户共享同一个工作目录。这样做的好处是简单，但问题也很明显：如果两个用户同时在写代码，文件会互相覆盖！

更严重的是，用户 A 可能会看到用户 B 的文件，这是一个严重的安全问题。

我的解决方案：会话隔离 + 定时清理

我设计了一个会话隔离的机制：每个会话都有一个独立的工作目录。

private string GetOrCreateSessionWorkspace(string sessionId) { lock (_workspaceLock) { // 如果已经创建过，直接返回 if (_sessionWorkspaces.TryGetValue(sessionId, out var existingPath)) { return existingPath; } // 创建新的工作目录 var workspaceRoot = GetEffectiveWorkspaceRoot(); var sessionWorkspace = Path.Combine(workspaceRoot, sessionId); if (!Directory.Exists(sessionWorkspace)) { Directory.CreateDirectory(sessionWorkspace); _logger.LogInformation("创建会话工作区: {Workspace}", sessionWorkspace); } _sessionWorkspaces[sessionId] = sessionWorkspace; return sessionWorkspace; } }

这个设计的核心思路是：用会话 ID 作为目录名，为每个会话创建一个独立的工作目录。这样，不同用户的文件就不会互相干扰了。

但这又带来了一个新问题：如果用户创建了很多会话，工作目录会越来越多，占用大量磁盘空间。

我设计了一个定时清理机制：

public class WorkspaceCleanupBackgroundService : BackgroundService { protected override async Task ExecuteAsync(CancellationToken stoppingToken) { while (!stoppingToken.IsCancellationRequested) { try { await CleanupExpiredWorkspaces(); } catch (Exception ex) { _logger.LogError(ex, "清理工作区失败"); } // 每小时清理一次 await Task.Delay(TimeSpan.FromHours(1), stoppingToken); } } private async Task CleanupExpiredWorkspaces() { var workspaceRoot = GetWorkspaceRoot(); var expirationHours = _options.WorkspaceExpirationHours; var cutoffTime = DateTime.UtcNow.AddHours(-expirationHours); foreach (var dir in Directory.GetDirectories(workspaceRoot)) { var lastAccessTime = Directory.GetLastAccessTime(dir); if (lastAccessTime < cutoffTime) { Directory.Delete(dir, true); _logger.LogInformation("删除过期工作区: {Dir}", dir); } } } }

这个后台服务会每小时检查一次，删除超过 24 小时没有访问的工作目录。这样，既保证了用户的文件不会丢失（24 小时内），又避免了磁盘空间被占满。

架构设计的核心思想：分层 + 解耦 + 可扩展

回顾整个项目，我总结出了几个核心的架构设计原则：

1. 适配器模式：封装差异，统一接口

不同的 CLI 工具有不同的输出格式、命令参数、会话恢复机制。如果在业务逻辑中硬编码这些差异，代码会变得非常混乱，难以维护。

适配器模式的核心思想是：把差异封装在适配器内部，对外提供统一的接口。这样，当需要支持新的 CLI 工具时，只需要实现一个新的适配器，不需要修改业务逻辑。

这就像是给不同品牌的充电器配一个转接头，让它们都能插到同一个插座上。

2. 工厂模式：自动匹配，降低耦合

如果在业务逻辑中写一堆if-else来判断使用哪个适配器，代码会变得非常丑陋：

// 不好的做法 ICliToolAdapter adapter; if (tool.Id == "codex") adapter = new CodexAdapter(); else if (tool.Id == "claude-code") adapter = new ClaudeCodeAdapter(); else if (tool.Id == "opencode") adapter = new OpenCodeAdapter(); else throw new Exception("不支持的工具");

工厂模式的核心思想是：把对象创建的逻辑封装在工厂类中，业务逻辑只需要调用工厂方法，不需要关心具体的创建过程。

// 好的做法 var adapter = _adapterFactory.GetAdapter(tool);

这样，当需要支持新的 CLI 工具时，只需要在工厂类中注册新的适配器，不需要修改业务逻辑。

3. 依赖注入：提高可测试性

在 ASP.NET Core 中，我大量使用了依赖注入（DI）。比如：

public class CliExecutorService : ICliExecutorService { private readonly ILogger<CliExecutorService> _logger; private readonly ICliAdapterFactory _adapterFactory; private readonly IChatSessionService _chatSessionService; public CliExecutorService( ILogger<CliExecutorService> logger, ICliAdapterFactory adapterFactory, IChatSessionService chatSessionService) { _logger = logger; _adapterFactory = adapterFactory; _chatSessionService = chatSessionService; } }

依赖注入的核心思想是：不要在类内部创建依赖对象，而是通过构造函数注入。这样做有两个好处：

提高可测试性：在单元测试中，可以注入 Mock 对象，而不需要依赖真实的数据库、文件系统等。
降低耦合度：类之间通过接口依赖，而不是具体实现，更容易替换和扩展。

4. 异步流（IAsyncEnumerable）：优雅地处理流式数据

在处理 CLI 输出时，我使用了 C# 8.0 引入的IAsyncEnumerable：

public async IAsyncEnumerable<StreamOutputChunk> ExecuteStreamAsync( string sessionId, string toolId, string userPrompt, [EnumeratorCancellation] CancellationToken cancellationToken = default) { // 启动进程 var process = StartProcess(tool, userPrompt); // 逐行读取输出 while (true) { var line = await process.StandardOutput.ReadLineAsync(); if (line == null) break; yield return new StreamOutputChunk { Content = line }; } }

异步流的核心思想是：把数据生产和消费解耦。生产者（CLI 进程）按照自己的节奏输出数据，消费者（前端）按照自己的节奏消费数据，中间通过异步流连接。

这就像是一条传送带，工厂按照自己的节奏生产产品，商店按照自己的节奏销售产品，传送带负责把产品从工厂运到商店。

性能优化的核心思想：减少不必要的计算

在整个项目中，我做了大量的性能优化。总结起来，核心思想就是：减少不必要的计算。

1. 缓存：用空间换时间

Markdown 渲染、文件树构建、环境变量解析等操作都比较耗时。如果每次都重新计算，会导致性能问题。

我的做法是：第一次计算后，把结果缓存起来，后续直接使用缓存。

private readonly Dictionary<string, MarkupString> _markdownCache = new(); private MarkupString RenderMarkdown(string markdown) { if (_markdownCache.TryGetValue(markdown, out var cached)) return cached; var html = Markdown.ToHtml(markdown); _markdownCache[markdown] = new MarkupString(html); return _markdownCache[markdown]; }

这是典型的用空间换时间的策略。

2. 防抖：减少高频操作

当用户快速输入时，如果每次按键都触发搜索，会导致大量的网络请求和计算。

我的做法是：等用户停止输入 300ms 后，再触发搜索。

private System.Threading.Timer? _autoCompleteDebounceTimer; private const int AutoCompleteDebounceMs = 300; private void OnInputChanged(string value) { _autoCompleteDebounceTimer?.Dispose(); _autoCompleteDebounceTimer = new System.Threading.Timer(_ => { InvokeAsync(() => PerformSearch(value)); }, null, AutoCompleteDebounceMs, Timeout.Infinite); }

这是典型的防抖（Debounce）策略，在前端开发中非常常见。

3. 虚拟滚动：只渲染可见内容

当列表有几千条数据时，如果全部渲染到 DOM 中，会导致页面卡顿。

我的做法是：只渲染用户当前可见的内容，其他内容用占位符代替。

private int _displayedEventCount = 20; private List<JsonlDisplayItem> GetVisibleEvents() { return _jsonlEvents.Take(_displayedEventCount).ToList(); }

这是典型的虚拟滚动（Virtual Scrolling）策略，在处理大数据量时非常有效。

4. 懒加载：按需加载

文件树可能有几千个节点，如果一次性全部加载，会导致性能问题。

我的做法是：只加载第一层节点，用户点击展开时，再加载子节点。

private readonly Dictionary<string, List<WorkspaceFileNode>> _lazyLoadedChildren = new(); private async Task<List<WorkspaceFileNode>> GetChildren(string path) { if (_lazyLoadedChildren.TryGetValue(path, out var cached)) return cached; var children = await LoadChildrenFromFileSystem(path); _lazyLoadedChildren[path] = children; return children; }

这是典型的懒加载（Lazy Loading）策略，在处理树形结构时非常有效。

移动端适配的核心思想：响应式设计 + 渐进增强

在移动端适配方面，我遵循了两个核心原则：

1. 响应式设计：一套代码，多端适配

我使用 Tailwind CSS 的响应式工具类，实现了一套代码在桌面端和移动端都能良好展示：

<div class="flex flex-col md:flex-row"> <!-- 移动端：垂直布局，桌面端：水平布局 --> <div class="w-full md:w-1/2">左侧内容</div> <div class="w-full md:w-1/2">右侧内容</div> </div>

这样，在移动端（宽度小于 768px）时，两个区域会垂直排列；在桌面端时，会水平排列。

2. 渐进增强：基础功能优先，高级功能可选

在移动端，我优先保证核心功能（发送消息、查看输出）的可用性，一些高级功能（文件树、代码预览）可以通过底部导航栏切换。

<!-- 移动端底部导航栏 --> <div class="fixed bottom-0 left-0 right-0 bg-white border-t md:hidden"> <button @onclick="ShowChat">对话</button> <button @onclick="ShowOutput">输出</button> <button @onclick="ShowFiles">文件</button> <button @onclick="ShowPreview">预览</button> </div>

这样，用户可以根据需要切换不同的功能区域，而不是把所有功能都挤在一个屏幕上。

总结：从"能用"到"好用"的进化之路

回顾整个项目，我经历了三个阶段：

第一阶段：能用（MVP）

最开始，我只是想做一个简单的 Web 界面，能调用 Codex CLI 就行。这个阶段的代码非常简陋：

硬编码 Codex 的命令格式
每次都启动新进程
没有会话恢复
没有移动端适配

但至少，它能用了。

第二阶段：好用（优化）

用户开始使用后，反馈了很多问题：

启动太慢（每次都要等 5-10 秒）
刷新页面后对话历史丢失
移动端体验很差
只支持 Codex，不支持其他工具

于是我开始优化：

实现持久化进程，启动时间从 10 秒降到 1 秒
实现会话恢复，刷新页面后可以继续对话
适配移动端，解决 Safari 的各种坑
设计适配器模式，支持多种 CLI 工具

这个阶段，它变得好用了。

第三阶段：易扩展（架构）

随着功能越来越多，代码开始变得混乱。我意识到，如果不重构架构，后续的维护会越来越困难。

于是我进行了一次大规模的重构：

引入适配器模式和工厂模式，解耦业务逻辑和 CLI 工具
引入依赖注入，提高可测试性
引入异步流，优雅地处理流式数据
引入缓存、防抖、虚拟滚动等性能优化策略

这个阶段，它变得易扩展了。现在，如果要支持一个新的 CLI 工具，只需要实现一个新的适配器，不需要修改任何业务逻辑。

给同行的几点建议

如果你也在做类似的项目，我有几点建议：

1. 不要过早优化，但要预留扩展性

在 MVP 阶段，不要花太多时间在性能优化上。先让它能用，再让它好用，最后让它快。

但在设计架构时，要预留扩展性。比如，即使现在只支持一个 CLI 工具，也要设计成可以支持多个工具的架构。这样，后续扩展时就不需要大规模重构。

2. 适配器模式是处理"多样性"的利器

当你需要集成多个第三方系统，而它们的接口各不相同时，适配器模式是最佳选择。

不要试图在业务逻辑中用if-else处理所有差异，那样代码会变得非常混乱。把差异封装在适配器内部，对外提供统一的接口。

3. 移动端适配不是"顺便做"的事情

很多开发者认为，移动端适配就是加几个 CSS 媒体查询。但实际上，移动端适配涉及到交互设计、性能优化、浏览器兼容等多个方面。

如果你的产品需要支持移动端，建议从一开始就考虑移动端的使用场景，而不是等桌面端做完了再"顺便"适配移动端。

4. 性能优化要有的放矢

不要盲目优化。先用 Chrome DevTools 分析性能瓶颈，找到真正的问题所在，再针对性地优化。

在我的项目中，最大的性能瓶颈是频繁的 DOM 更新。通过防抖、虚拟滚动、Markdown 缓存等策略，性能提升了 10 倍以上。

5. 测试驱动开发（TDD）真的有用

在重构适配器模式时，我写了大量的单元测试。这些测试在后续的开发中帮了大忙：每次修改代码后，跑一遍测试，就能知道有没有破坏现有功能。

如果没有这些测试，我根本不敢大规模重构代码。

写在最后

这个项目从构思到上线，前后花了三个月时间。期间踩了无数的坑，也学到了很多东西。

最大的感悟是：好的架构不是一开始就设计出来的，而是在不断迭代中演化出来的。

不要害怕重构，也不要过早优化。先让它能用，再让它好用，最后让它快。

如果你也在做类似的项目，希望这篇文章能给你一些启发。如果你有任何问题或建议，欢迎在评论区留言交流！

更多AIGC文章

RAG技术全解：从原理到实战的简明指南

更多VibeCoding文章