桌面端核心进程 stdout 管道阻塞问题

背景

问题现象

我在 Windows 桌面端遇到一个奇怪的现象：

客户端启动后，显示”内核未启动”
浏览器访问 http://127.0.0.1:18520/health/core 超时
杀掉 Flutter 客户端后，再访问同一地址反而正常了

这个”杀掉客户端后核心反而正常”的现象非常反直觉。

诊断过程

通过一系列检查发现：

# 检查进程状态
tasklist | findstr /i "e2eepan-core"
# 结果：e2eepan-core.exe 进程存在
 
# 检查端口状态
netstat -ano | findstr "18520" | findstr "LISTEN"
# 结果：没有任何进程在监听 18520 端口！
 
# 检查连接状态
netstat -ano | findstr "18520"
# 结果：大量 SYN_SENT 状态（客户端尝试连接但无服务器）

关键发现：核心进程在运行，但没有开始监听端口。

查看日志文件，发现日志在打印完 “Auth Token: …” 后就截断了：

1
2025/12/21 02:13:40.624400 ║  S3 Endpoint: 192.168.1.4:9000                         ║
2
2025/12/21 02:13:40.624400 ║  Bucket:      e2eepands                                ║
3
2025/12/21 02:13:40.624400 ║  Port:        18520                                    ║
4
2025/12/21 02:13:40.624900 ║  Auth Token:  6...
5
# 没有后续的 Heartbeat 和 "server starting" 日志

然后我用完全相同的命令行参数手动启动核心：

E:\...\e2eepan-core.exe --port=18520 --s3-endpoint=192.168.1.4:9000 ...

结果：核心正常启动，端口正常监听！

根因分析

问题本质

问题出在 进程间通信的管道缓冲区机制。

当 Flutter 使用 Process.start() 启动子进程时：

1
┌─────────────────────────────────────────────────────────────────────────┐
2
│                        进程间通信管道机制                                  │
3
├─────────────────────────────────────────────────────────────────────────┤
4
│                                                                         │
5
│   Flutter 客户端 (父进程)                    Go 核心 (子进程)            │
6
│   ┌──────────────────┐                      ┌──────────────────┐       │
7
│   │                  │                      │                  │       │
8
│   │  Process.start() │◄─── stdout 管道 ◄────│  log.Printf()    │       │
9
│   │                  │    (缓冲区 4-64KB)   │                  │       │
10
│   │  没有读取 stdout │                      │  持续写入日志... │       │
11
│   │                  │                      │                  │       │
12
│   └──────────────────┘                      └──────────────────┘       │
13
│                                                                         │
14
└─────────────────────────────────────────────────────────────────────────┘

阻塞流程

1
┌─────────────────────────────────────────────────────────────────────────┐
2
│                           阻塞发生过程                                    │
3
├─────────────────────────────────────────────────────────────────────────┤
4
│                                                                         │
5
│  1. 客户端调用 Process.start() 启动核心                                  │
6
│     └─► 操作系统创建 stdout/stderr 管道连接父子进程                       │
7
│                                                                         │
8
│  2. Go 核心开始输出启动日志                                               │
9
│     └─► log.Printf("╔═══════════════════════════════════════════╗")     │
10
│     └─► log.Printf("║  S3 Endpoint: ...")                               │
11
│     └─► log.Printf("║  Auth Token: ...")                                │
12
│                                                                         │
13
│  3. 日志输出填满管道缓冲区（约 4-64KB）                                   │
14
│     └─► 客户端没有读取 stdout                                            │
15
│     └─► 缓冲区已满，无法写入更多数据                                       │
16
│                                                                         │
17
│  4. Go 的 log.Printf() 调用阻塞                                          │
18
│     └─► 等待父进程读取数据腾出空间                                        │
19
│     └─► 核心卡在日志输出，无法继续执行                                     │
20
│                                                                         │
21
│  5. router.Run() 永远不会被执行                                          │
22
│     └─► 端口永远不会开始监听                                              │
23
│     └─► 客户端连接超时 → 显示"内核未启动"                                 │
24
│                                                                         │
25
│  6. 我杀掉客户端                                                        │
26
│     └─► 父进程退出，管道被销毁                                            │
27
│     └─► Go 核心的 stdout 变成"无效描述符"                                 │
28
│     └─► log.Printf() 写入失败但不阻塞（写入 /dev/null）                   │
29
│     └─► 核心继续执行 → router.Run() → 端口开始监听                        │
30
│     └─► 我再访问时发现"核心正常了"                                      │
31
│                                                                         │
32
└─────────────────────────────────────────────────────────────────────────┘

为什么手动启动没问题？

手动在终端运行时：

stdout 连接到终端窗口
终端会实时显示（消费）输出
缓冲区永远不会满

被客户端启动时：

stdout 连接到管道
客户端不读取管道
缓冲区很快填满

解决方案

方案对比

方案	描述	优点	缺点
A. 客户端消费 stdout	用 `drain()` 丢弃输出	简单	仍有 IO 开销
B. 核心禁用 stdout	只写日志文件	根本解决	手动调试不方便
C. 混合方案	检测终端，智能选择	最佳体验	实现稍复杂

最终采用 方案 C（混合方案）+ 方案 A（保底）。

实现细节

1. 核心端：智能检测终端

使用 go-isatty 库检测 stdout 是否连接到终端：

// main.go
import "github.com/mattn/go-isatty"
 
// 创建日志文件
logFile := setupLogFile()
if logFile != nil {
    defer logFile.Close()
    
    // 检测是否在终端运行（手动调试 vs 被客户端启动）
    if isatty.IsTerminal(os.Stdout.Fd()) || isatty.IsCygwinTerminal(os.Stdout.Fd()) {
        // 手动运行：同时输出到控制台和文件
        multiWriter := io.MultiWriter(os.Stdout, logFile)
        log.SetOutput(multiWriter)
    } else {
        // 被客户端启动：只输出到文件，避免 stdout 管道阻塞
        log.SetOutput(logFile)
    }
    log.SetFlags(log.Ldate | log.Ltime | log.Lmicroseconds)
}

2. 客户端端：分离模式 + drain 保底

即使核心端已经处理了，客户端也做保底处理：

// app_state.dart
Future<void> _startDesktopCoreProcess({required bool suppressError}) async {
    // ...
    
    // 使用 detachedWithStdio 模式，避免 stdout 缓冲区满导致阻塞
    _desktopCoreProcess = await io.Process.start(
      coreExe.path,
      args,
      mode: io.ProcessStartMode.detachedWithStdio,
    );
    
    // 丢弃 stdout/stderr，防止缓冲区堆积
    _desktopCoreProcess!.stdout.drain<void>();
    _desktopCoreProcess!.stderr.drain<void>();
    
    await writeLock();
    await _waitForCoreReady();
}

3. 启动后等待核心就绪

添加轮询等待机制，确保核心真正就绪后再继续：

/// 等待桌面核心就绪（最多等待 10 秒）
Future<void> _waitForCoreReady() async {
  const maxAttempts = 20;
  const delay = Duration(milliseconds: 500);
 
  for (var i = 0; i < maxAttempts; i++) {
    try {
      final health = await api.getCoreHealthDetail();
      if (health != null && health['status'] == 'ok') {
        debugPrint('[DesktopCore] Ready after ${(i + 1) * 500}ms');
        return;
      }
    } catch (_) {
      // 忽略错误，继续重试
    }
    await Future.delayed(delay);
  }
  debugPrint('[DesktopCore] Timeout waiting for core to be ready');
}

最终架构

1
┌─────────────────────────────────────────────────────────────────────────┐
2
│                        混合方案最终架构                                    │
3
├─────────────────────────────────────────────────────────────────────────┤
4
│                                                                         │
5
│   启动方式              stdout 检测                日志输出              │
6
│                                                                         │
7
│   ┌──────────────┐     ┌──────────────┐     ┌──────────────────────┐   │
8
│   │  手动运行     │ ──► │ isatty=true  │ ──► │ stdout + 日志文件    │   │
9
│   │  (终端调试)   │     │              │     │ (实时查看日志)       │   │
10
│   └──────────────┘     └──────────────┘     └──────────────────────┘   │
11
│                                                                         │
12
│   ┌──────────────┐     ┌──────────────┐     ┌──────────────────────┐   │
13
│   │  客户端启动   │ ──► │ isatty=false │ ──► │ 仅日志文件           │   │
14
│   │  (生产环境)   │     │              │     │ (不会阻塞)           │   │
15
│   └──────────────┘     └──────────────┘     └──────────────────────┘   │
16
│                                                                         │
17
│   客户端保底措施：                                                        │
18
│   ┌──────────────────────────────────────────────────────────────────┐ │
19
│   │  ProcessStartMode.detachedWithStdio + stdout.drain()             │ │
20
│   │  即使核心意外输出到 stdout 也不会阻塞                               │ │
21
│   └──────────────────────────────────────────────────────────────────┘ │
22
│                                                                         │
23
└─────────────────────────────────────────────────────────────────────────┘

修改的文件

文件	修改内容
`core/cmd/server/main.go`	使用 `isatty` 检测终端，智能选择日志输出目标
`client/lib/core/state/app_state.dart`	使用 `detachedWithStdio` 模式 + `drain()`
`client/lib/core/state/app_state.dart`	添加 `_waitForCoreReady()` 等待核心就绪

经验教训

1. 进程间通信的隐藏陷阱

启动子进程时，必须处理 stdout/stderr，否则可能导致：

子进程阻塞（缓冲区满）
内存泄漏（缓冲区堆积）
不可预测的行为

2. 调试环境 vs 生产环境的差异

手动调试时一切正常，但被自动化启动时出问题，这类问题往往与：

环境变量差异
工作目录差异
stdio 处理差异（本次问题）
权限差异

3. 多层防御策略

即使核心端已经处理了问题，客户端也应该做保底处理：

核心端：检测终端，智能输出
客户端：分离模式 + drain
两层保护，更加稳健

4. 日志的重要性

通过对比日志截断位置（“Auth Token” 后截断）和手动运行的完整日志，快速定位到问题发生在 log.Printf 调用处，从而推断出 stdout 阻塞问题。