第315章 提前布置「海上数据计划」
  第二轮全链路演练是在凌晨四点开始的。
  许承没有提前通知任何业务线,只在天机云基础设施组的调度中心里坐定,看了一眼墙上的时钟,然后对操作台前的工程师说了两个字:“切吧。”
  主控屏上,天机云海外节点与国內核心数据中心的连接状態从绿色跳成黄色,再跳成橙色。四十七秒后,所有跨区域研发协同、设计数据同步、版本管理系统、远程验证平台的默认路由,全部从传统海底电缆主路径切换到了海上数据计划的备用架构上。
  切换本身几乎没有感知。
  这是许承最在意的事。真正好的冗余方案,不是在灾难发生时让用户看到一张“我们正在切换”的提示页,而是让灾难发生在技术底层,让业务层什么都感觉不到。
  四十秒后,第一个问题暴露了。
  一个位於南洋的边缘缓存节点在高延迟场景下的数据一致性校验超时,导致该区域的部分版本管理请求回退到了降级模式。不是断线,不是丟数据,但响应时间从正常的两百毫秒爬升到了接近两秒。
  “抓到了。”负责边缘节点调度的工程师没有慌,反而像是鬆了一口气。
  许承看了一眼日誌,没有立刻做判断,只是说:“先跑完,问题记下来,不修。”
  他要用一轮完整的全链路演练,把海上数据计划在当前状態下所有能暴露的问题全部暴露出来。修补丁不急於这一时,但问题清单必须足够全、足够细、足够真。
  演练持续了四小时十七分钟。
  在这四小时十七分钟里,海上数据计划的备用架构承受了天机云海外节点与国內核心之间所有关键业务流的真实负载。设计数据同步、代码仓库交互、远程验证调度、ai训练任务的跨区域协同、以及部分非敏感的用户服务流量,全部被切到了备用路径上。
  暴露出来的问题被一条条记录下来。
  边缘缓存节点的数据一致性策略需要重构,有三个区域的链路冗余在极端高延迟下存在盲区,异步同步的优先级调度算法在某些边界条件下会 starvation,两个中间节点的带宽分配策略不够精细,以及在最高压负载场景下,核心研发数据的同步延迟会从正常的两百毫秒放大到一点五秒到三秒之间。
  没有一个问题是致命的。