TOP100全球案例研究峰會:作業幫打造百萬級QPS常態化鏈路壓測診斷平臺

(原標題:TOP100全球案例研究峰會作業幫打造百萬級QPS常態鏈路壓測診斷平臺

近期,TOP100全球案例研究峰會於北京國際會議中心召開。作業幫作爲在線教育領域的典型案例成功入選,作業幫產研中臺組測試負責人王俊星出席會議,並於工具建設分會場向與會嘉賓展示了作業幫百萬級QPS常態化鏈路壓測診斷平臺。

據瞭解,TOP100全球案例研究峰會是由msup公司主辦的全球頂級技術峰會,至今已成功舉辦9屆。本屆TOP100全球案例研究峰會邀請到Amazon、LinkedIn、IBM、百度、阿里、騰訊、字節跳動等130位一線技術大咖和業界專家,並由18位垂直專題領域的業界專家擔當聯席主席,負責專題案例評審、甄選,最終形成120件案例和18個專題。對於案例評選,TOP100更崇尚專業的力量和案例落地實踐,致力於讓聽衆有所收益,保證發佈的案例學習榜單富有學習價值。

此次作業幫成功入選TOP100全球案例,是權威機構對作業幫作爲領先在線教育平臺技術實力的肯定。王俊星表示,一直以來作業幫以全鏈路壓測模型的迭代升級賦能多樣化場景,保證線上千萬級併發直播上課的穩定性。未來,作業幫將繼續融通各項技術及團隊能力,深耕壓測平臺架構優化基礎建設,保證作業幫線服務穩定性達到99.99%,實現穩定的優質教育資源供給,以輻射千萬孩子的學習征程,踐行教育使命和願景

千萬學生學習場景存在解構風險,壓測成必由之路

今年年初,在“停課不停學”的號召下,教育部鼓勵老師和學生“在家上學”。隨之而來的是通過互聯網音視頻與知識建立連接的方式在全國範圍內迅速普及,在線教育用戶規模呈井噴式增長,2020年被稱爲“在線教育爆發之年”。

作爲在線教育企業獨角獸之一,作業幫超級APP聚集效應在今年持續增強。易觀3月數據顯示,作業幫是中國唯一月活過億的教育類APP,在流量維度保持行業領先之勢。隨着用戶規模不斷增長,保證系統穩定性、有效破解千萬學生學習場景的解構風險成爲作業幫面臨的首要任務。

王俊星在會上表示,教育是容不得半點馬虎與妥協的,爲滿足所有學生和家長對於從在線獲取知識的期待,我們必須保證系統的穩定性。因此,作業幫開始發力系統穩定性評估路徑的探索。在調研業界各大公司的穩定性方案和開源壓測框架後,作業幫基於自身業務場景,選擇了自研全鏈路壓測模型的解決方案。據瞭解,該模型必須與作業幫業務場景高度契合纔能有效保證系統的正常運行,既涵蓋雙師角色、學生交互複雜場景的複用、切換,同時必須將服務架構、私有協議的特殊性納入考量範圍。

然而,扣住在線教育的脈搏並非一朝之間。儘管參與人數衆多,每項操作均爲精心設置,整個團隊視熬夜爲常態,但早期壓測仍未取得預期效果。“壓測結果與現實存在巨大偏差,團隊的心情只能用一句歌詞形容:多麼痛的領悟,別再爲壓測受苦。”對於初次嘗試的失敗,王俊星迴憶道。

不同於傳統線下行業可以模擬出一個對等的生產環境,互聯網行業的壓測難以實現同級別的服務集羣。數據構造不真實、場景臆想正是壓測架構脆弱的關鍵所在。此外,壓測工具缺乏安全性、人力投入成本大等問題亦亟待解決。因此,對於在市場賽道完美承受高壓檢驗,作業幫還有更長的路要走。

安全先行、場景還原,作業幫推出自研壓測平臺

對於作業幫人來說,壓力測試不僅是關乎業績和增長的技術命題,更是與跨城鄉、跨地域的全中國中小學生相關的教育供給命題。爲此,作業幫解鎖了自研壓測平臺的進階關卡。

首先,產研團隊在壓測的探索上達成了安全先行的共識,將“服務與數據隔離”設定爲核心思想,研發、測試、運維共同建設將方案落地。具體而言,依託於日誌服務,對數據進行清洗和脫敏,數據經過壓測平臺後產生壓測標記,在業務網關分發到各業務集羣,業務模塊根據壓測標記,進行基礎業務服務和數據的隔離。

對於場景模擬和數據構造的真實性,團隊目前已從最初的捉襟見肘轉向能夠遊刃有餘地發揮技術優勢的階段。隨着平臺投入使用後,對大家的衍生使用需求,如數據預熱需求、高壓下的持續穩定性測試等,進行了優化支持,以滿足壓測多樣化需求。

而在模擬場景的塑造上,作業幫則分爲兩大板塊,生成不同的設計思路。一方面,對大型售賣活動,採取了多場景鏈路壓測疊加參數化的方式進行梯度發壓,並基於漏斗型用戶行爲模型,達成預期的成果;另一方面,對複雜教學場景的支持,複雜性主要體現在技術複雜性(涉及到私有技術架構、長連接和流媒體協議),數據和交互的複雜性即雙師教學的業務形態(每個學生都是一個獨立的個體,有各自的行爲序列;主講與輔導老師各司其職並實時同步學生狀態,使主講及時調整教學內容,保證學生的課堂收穫)。因此作業幫自研了學生節點、主講節點、輔導老師節點模型,依託真實的日誌將不同角色的行爲序列化,最後注入模型,實現教學場景的仿真。

王俊星表示:“作業幫是做教育的,因此對直播課場景傾注了更多心血。我們必須嚴格把控視頻流同步性、互動的實時性及到達率,保證教學質量與學生的體驗,而場景還原是做足攻防和破壞性演練的基礎。當翻山越嶺跨過這道坎之後,作業幫仍要繼續尋求壓測技術的向上突破。”

高效的常態化平臺體系加持,作業幫穩定輸出教育價值

對於在線教育技術團隊而言,每次活動或開課節點都是一場硬仗,平臺服務層面的“風平浪靜”一般源自於底層技術團隊壓測的無數次“驚心動魄”。爲緩解人員運維壓力,提高效率,作業幫團隊從壓測平臺的發壓階段切入,切實提高重大事件的平臺承受能力。

王俊星介紹道,作業幫對於發壓側進行了結構性調整優化,基於2PC思想和流水線形式處理鏈路,大大提升單節點發壓能力,減少了設備投入和運維成本。發壓的安全上也會進一步優化,很快我們就會與業務支撐系統打通,觸發閾值熔斷並與自動化平臺聯動以達到服務探活的目的,使壓測風險進一步降低。

同時,爲了解決高併發數據結果統計瓶頸,作業幫還會對計算引擎進行優化,通過分級計算、分佈式部署,解決數據彙總壓力,提升集羣水平擴展性

效率的提高除了對源頭進行管控,也離不開中間層面的調度程序優化。對此,作業幫豐富節點管理,增加節點屬性,並針對特殊壓測場景,獨立申請壓測節點,使節點分配更加高效合理,避免互相影響。

目前,集安全、擬真、效率於一體的百萬級QPS常態化鏈路壓測診斷平臺已初步具備了抗風險能力,對千萬孩子的教育資源流通產生強大的輻射作用。未來,作業幫還將聚焦系統薄弱環節預判板塊,持續建設內置學習模型,全面打造自動化、領先行業的賦能平臺。

談及壓測平臺的研發心得,王俊星表示,“用技術完美承接瞬時流量也許能無差別地讓每一位工程師產生成就感,而用科技落實教育理念則是作業幫人的獨有標籤。對我們而言,教育容不得半點馬虎與妥協,我們必須保證每一位學生的體驗和課堂收穫,讓優質教育觸手可及。今後,我們將繼續投入優質教育資源的穩定供給之中,輻射千萬孩子的學習征程,踐行教育使命和願景。”