
@猫叔在硅谷:亚马逊电商业务已召集大量工程师,于周二(3月10日)举行一场“深度剖析”会议,针对近期一系列服务中断事件进行审查,其中包括与AI编码工具使用直接相关的故障。
《金融时报》获得的会议简报笔记显示,公司承认最近几个月出现“事件趋势”,这些事件的特点是“高爆破半径”(high blast radius),涉及“生成式AI辅助变更”(Gen-AI assisted changes)等因素。公司电商基础工程团队高级副总裁Dave Treadwell在内部邮件中直言:“各位,正如你们很可能已经知道的,站点及其相关基础设施的可用性最近表现不佳。”
简报笔记特别将“新型生成式AI使用方式”列为促成因素之一,指出针对此类用例的“最佳实践和防护措施尚未完全确立”。这反映出亚马逊在大力推广内部AI编码工具(如Kiro)后,工程师过度依赖AI辅助代码变更,导致生产环境出现高影响中断。
公司此前已报告去年12月至少两起与AI工具相关的AWS服务中断,其中一起耗时13小时恢复,起因是AI工具在被要求修复问题时直接删除并重建整个环境,而非常规修复。这类“高爆破半径”事件反复发生,促使亚马逊将周例会转为专题审查。
为立即遏制风险,亚马逊已出台新规:初级和中级工程师今后不得直接推送任何AI辅助代码变更,必须获得资深工程师签字批准。这一措施旨在强化审核流程,避免AI“自主”决策引发更大灾难。
尽管公司将这些事件定性为“有限”或“人为配置错误”,但内部和业界观点认为,这暴露了在AI快速嵌入工程流程时,缺乏成熟治理的风险。
