由于谷歌云平臺(tái)出現(xiàn)了問題,昨天多個(gè)熱門在線服務(wù)遇到了停機(jī)或響應(yīng)緩慢的現(xiàn)象。經(jīng)谷歌確認(rèn),它的許多工具出現(xiàn)了問題,而Discord、Spotify和Snapchat等知名網(wǎng)站和服務(wù)依賴這些工具才能正常運(yùn)行。
谷歌云平臺(tái)的狀態(tài)頁面上的一則通告聲稱:“我們正在調(diào)查谷歌云全球負(fù)載均衡系統(tǒng)(Global Loadbalancers)的問題,該系統(tǒng)為許多服務(wù)返回502出錯(cuò)消息,包括AppEngine、Stackdriver和Dialogflow等服務(wù),此外客戶全球負(fù)載均衡系統(tǒng)也出了問題?!?/p>
一些受到影響的第三方服務(wù)包括下列:
- Snapchat
- Pokémon Go
- Faceit
- Discord
- Spotify
今日谷歌云對外公布了調(diào)查結(jié)果,根本原因如下:
谷歌的全球負(fù)載均衡系統(tǒng)基于谷歌前端服務(wù)(GFE)的雙層架構(gòu)。GFE的第一層盡量靠近用戶來響應(yīng)請求,以便在建立連接的過程中為用戶最大限度地提高性能。這些GFE將請求路由到GFE的第二層,而這第二層的位置靠近請求所使用的服務(wù)。這種類型的架構(gòu)讓客戶得以在世界上任何地方都擁有低延遲連接,同時(shí)又可以充分利用谷歌的全球網(wǎng)絡(luò)為后端處理請求,無論客戶在哪個(gè)地區(qū)。
GFE開發(fā)團(tuán)隊(duì)當(dāng)時(shí)正在為GFE添加一些功能,以提高安全性和性能。這些功能被添加到了第二層GFE代碼庫,但尚未投入使用。其中一個(gè)功能含有一個(gè)會(huì)導(dǎo)致GFE重啟的錯(cuò)誤(bug);不過無論在測試階段,還是在初始部署階段,工作人員都沒有發(fā)現(xiàn)這個(gè)錯(cuò)誤。事件開始時(shí),生產(chǎn)環(huán)境的一個(gè)配置變更間歇性地觸發(fā)了該錯(cuò)誤,結(jié)果導(dǎo)致受影響的GFE一再重啟。由于重啟不是瞬時(shí)的,可用的第二層GFE容量因此減少。雖然一些請求得到了正確響應(yīng),但GFE重新上線時(shí),其他請求卻由于容量暫時(shí)不足而被中斷(導(dǎo)致連接重置)或被拒絕。
與 6 月 27 日阿里云故障,如出一轍,云平臺(tái)都遇同一個(gè)bug?