【專訪】打造 10 萬人在線也不掛站的互動系統,17 Media 直播幕後技術大公開!

17 Media 是台灣著名直播平台,不僅 App 獲得千萬下載,更成為上萬直播主品牌經營與粉絲培養、互動的一大管道。目前 17 Media 的 全球註冊會員約為 4,000  萬人,主要集中於台灣、香港、日本地區;面對龐大會員帶來的網路流量,17 Media 卻少有網路斷線、直播延遲或是當機的狀況發生。TO 訪問了 17 Media 的背後技術團隊,找出 17 Media 彈性應對危機,以及抵禦高流量負載的成功策略。

「在用戶反應系統變慢之前,我們早就監控到了」

17 Media 流量高峰主要在晚間 12 點到半夜 2 點,尤其在特定活動或節日,甚至有將近 800 至 1000 位直播主用 App 播送訊息。17 Media 資深 SRE 工程部經理林毅民說明,直播產業與電商業商品銷售秒殺的消費者習慣不同,網路流量往往會以一個斜率增加,通常少有突然暴增的流量進入。而這個特性則給予 17 Media 一個產業優勢,讓他們可以提早做數據分析,整理出流量高峰時段,並做事前機制預防。

17 Media 後端工程部總監陳義雄說明,17 Media 建構了一個自動化系統,透過 CPU 做流量峰值監控,並在所有可能有突發狀況的地方設置流量警戒線。當 App 用戶開始增加,系統會依照即時流量彈性開設伺服器進行系統支援,並在流量超越警界線時預警技術團隊,做緊急處理。此舉不僅讓 17 Media 的 IT 成本大幅降低,同時也做到資源最大利用,有效將用戶體驗放在第一線思考。此外,17 Media 技術團隊也實時監控流量峰值,處理各地區系統意外發生,確保 App 用戶體驗品質。「當用戶反應系統變慢之前,團隊早就監控到了」林毅民重點強調到。

然而,總會有突然停機的大型突發危機出現。林毅民說明當有類似狀況發生,17 Media 的 SRE 與後端工程部會組成小型的短期應變小組,從不同角度拆解問題,找出解決方法。透過小組行動,團隊變得更靈活,溝通的管道也可改為線上會議指派任務處理,不只提升效率,也讓技術團隊有辦法分拆多組,同步解決大量問題。

17 Media 如何創造 10 萬人在線也不垮的互動系統?

17 Media 去年年初與八大電視台首次合作推出互動遊戲節目「17 好聰明」,節目中觀眾可以用手機答題、留言、按喜歡,且能在電視上看到互動結果。這在技術上有一定的困難,陳義雄提到,系統除了得講求低延遲、高速率,也因為是互動節目,系統最高得負荷 10 萬人在線互動還不垮站,而且因為是第一次處理,所以挑戰難度偏高。

陳義雄說到,節目開播 2 個月前,後端與 SRE 技術團隊 組成 7 人的壓力測試小組,進行系統的流量負載力測試。團隊小組發現,系統雖然得容納 10 萬人互動,但電視台並不會隨時都保持在 10 萬的流量頂峰上,也會以斜率逐步增加。依照觀眾特性,團隊不斷試錯,在系統測試上依照 3,000 至 5,000 人的數字往上增加,當流量超過負荷,就停下來偵錯、除錯,解決後繼續測試,直到每個互動環節都能夠承受預估數字為止。「我們一開始在差不多 2、3 萬人時,系統就垮了」陳義雄強調。

林毅民解釋,互動節目中有一個投票的環節,因此系統承受的流量將以「週期」的方式循環,而當時 17 Media 技術團隊的系統模型也模擬了類似的情形。

17 Media 是亞洲大型直播集團,談到未來目標以及最大挑戰,兩人毫無疑問的講到,如何將從直播主到用戶的訊號延遲縮短將是未來直播業的一大關鍵,其中不只涵蓋大量技術問題,同時也得考驗團隊擴張與資安管理。此外,面對 2020 年 5G 商轉,17 Media 的直播技術又會如何進化演變?直播業的技術變化值得我們一再觀察。

(本文提供合作夥伴轉載。)

延伸閱讀

【稱霸 GitHub 熱門榜】菜鳥也懂的 Python 教學,手把手打造「哄女友回話神器」

AI 工程師最佳入門資源!史丹佛公布「自然語言理解」免費課程,新手們趕快存起來

【博弈論解析】為什麼漢堡王總開在麥當勞旁邊?一次了解「霍特林法則」的巨大影響力!


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: