Coinbase称此前无法加载或与TLS证书迁移有关

Coinbase发布“11月16日网站和移动应用短时出现无法加载的情况”的事后分析报告。报告指出,“在美东时间11月16日15点32分,交易所的交易处理请求流量急剧降至零,15点38分,启动事件报告流程,随后便怀疑,这可能与我们正在运行的、用于更新服务之间的内部TLS证书的迁移有关。鉴于此,我们开始准备回滚最重要和关键的服务。由于开始重新部署服务,无法完全重新启动。我们怀疑存在连通性问题,因为我们尚未完全回滚TLS迁移,并且仍在进行一些服务。在查看相关指标、日志和跟踪记录后发现,这很可能是一个惊群效应问题。对此,我们采取了两个措施,一是暂时取消连接,阻止核心后端服务流量,并使之能够充分重新部署;二是增加了用于此服务的计算机的数量。17点05分,几乎所有服务都已恢复。”另外,Coinbase已经编写了代码,以扫描700多个负载均衡器,来查看基础结构编码与运行配置之间是否存在不匹配的情况。注,惊群效应(thunderingherd)是指多进程在同时阻塞等待同一个事件的时候(休眠状态),如果等待的这个事件发生,那么就会唤醒等待的所有进程,但是最终却只能有一个进程获得这个时间的控制权,对该事件进行处理,而其他进程获取控制权失败,只能重新进入休眠状态。