從數據黑盒到數據白盒

作者 | 趙健

編輯 | 劉景豐

2018年9月的一天,阿里雲基礎產品首席架構師黃瑞瑞在跟H銀行客戶交流時,聽到了這樣的吐槽:“我上雲之後,看不到你們在雲上的數據操作過程,其他雲廠商我也看不到。雖然我會繼續用你們的產品,但我心裡不舒服。”

讓這位客戶不舒服的正是行業一大痛點:對於上雲企業來說,雲廠商對雲上數據的操作、運維過程完全是一個黑盒子。就像一臺汽車,你能看到方向盤、底盤、座艙,但是看不到引擎到底是怎麼運作的。

這容易埋下隱患。隨着數據被定義爲數字時代的新型生產要素,從過去單純的“數據信息”變成如今的“企業資產”,其重要性陡然提升。把自家的數據資產交給別人保管,而且看不到保管的過程,這讓人如何相信數據資產的安全?

這種疑惑並非個例,雲廠商只好苦口婆心地向外界宣告公有云是安全的。早在2015年7月,阿里雲就發佈《數據保護倡議書》,明確表示絕對不碰客戶數據。之後,其他國內雲廠商跟進表示自己“不碰數據”。

但是,這更像是一種倡議而非機制,數據黑盒的行業通病並沒有從根本上得到解決。

直到今天,這一行業痛點迎來轉機。在10月19日的阿里雲棲大會上,阿里雲智能總裁張建鋒(花名:行癲)在主論壇的演講環節,重申了保護客戶數據安全是阿里雲的第一原則。行癲在臺上沒有提到的細節是,阿里雲給出了對於數據黑盒的解決方案——透明廚房。

透明廚房在阿里雲內部有一個特殊的代號——水晶計劃,它與本次雲棲大會上發佈的第四代神龍架構,同屬2019年阿里雲基礎產品的六大戰役。值得一提的是,放眼全球也只有谷歌雲(Google Cloud)有類似的產品。

本文,「甲子光年」採訪了阿里雲基礎產品首席架構師黃瑞瑞,來還原透明廚房的前世今生。

在數據安全受到前所未有的重視後,雲計算也走進深水區。透明廚房是阿里雲的一小步,也是數據安全的一大步。

1.打不開的數據黑盒

在雲計算之前的IT服務時代,企業將數據保存在自己的IDC(數據中心)機房中,運維人員的每一步操作都會生成相應的日誌,來記錄整個操作過程。因此對於企業來說,這是一個白盒。

而數據黑盒是雲計算的副產品。

從IDC切換到雲服務之後,雲廠商除了提供計算、存儲這些基礎的資源外,還會提供智能託管的服務——也就是代運維。但是,就像把家裡的鑰匙完全交給裝修師傅一樣,雲廠商在雲平臺上的操作過程並不能被客戶感知。這對客戶來說,就形成了數據黑盒。

儘管雲廠商已經通過各種加密手段、第三方審計報告或合規證書來證明其數據的安全性,但黃瑞瑞認爲“這只是安全的及格線”。

黃瑞瑞告訴「甲子光年」:“客戶常常表示,我相信你們阿里雲不會碰我的數據,但你們怎麼保證沒有員工頭腦發熱,或者誤操作?”

爲了打消企業對數據安全的疑慮,過去雲廠商通常有兩種做法:

第一種是商業手段,將數據安全寫進合同。如果企業發現雲廠商對自己的數據做了手腳,那麼雲廠商要做出一定的賠償。

這是一個行業標準做法,但問題又回到了邏輯的原點。“既然你都不告訴客戶雲平臺內部到底發生了什麼,他又怎麼能發現你動了他的數據呢?他發現不了。你寫在合同裡無非是表達一種承諾,讓客戶心裡好受一點罷了。”黃瑞瑞表示。這種方式治標不治本。

還有一種技術手段,將雲平臺內部所有的運維API接口向客戶開放,把“鑰匙”還給業主,把黑盒再次變成白盒。

但是這種做法有點不切實際。負責着阿里飛天雲平臺總體架構設計,以及下一代雲平臺底座技術架構設計、升級等工作的黃瑞瑞深知,把雲平臺內部的接口全部對外開放是一種不負責任的行爲。

站在客戶的角度看,很多客戶不具備敏感數據、API的管理能力,這樣做等於雲廠商將數據安全問題甩給沒有安全能力的客戶;站在雲廠商自己的角度,大量暴露API接口實際上擴大了黑客的攻擊面,此外權限收斂和分配因此也更加複雜,難以做到最小化授權。

從創立開始,阿里雲就一直在思索這個問題的最佳解決方案應該是什麼。

他們最早的靈感來自一則牛奶廣告:牛奶廠商爲了證明牛奶質量的可靠性,邀請很多家長、小朋友去牧場參觀從奶牛到牛奶的生產全流程,來切身感知一杯牛奶的誕生。牛奶廠商要做的,就是消除消費者和企業的信息差。

阿里雲安全和產品團隊從這則廣告中獲得了啓發,雲服務的過程就像牛奶生產的過程,想要獲得客戶的信任,最好要讓客戶獲得全鏈路的感知能力。但是這一想法一直沒有很好的落地契機。直到H銀行客戶在和阿里雲溝通時,提到了它在海外給谷歌提出了一個需求,即在雲上系統中的內部操作,運維日誌都要對客戶透明公開。

放眼全球,這稱得上是一個創新。黃瑞瑞認爲,這對阿里雲的高安全等級需求客戶(如金融類客戶)來說,也會是一個非常重要的需求。

要不要做這件事呢?與其說這是一個痛點,倒不如說是一個癢點。市場調研機構IDC發佈的市場份額報告顯示,2018年阿里雲在國內的市場份額佔比高達45.5%,牢牢佔據第一位。即使不解決數據黑盒問題,阿里雲的收入似乎也不會有影響。

但黃瑞瑞當時有一個更理想化的追求。他認爲,首先這是客戶真真切切的需求;其次作爲全球排名第三、國內第一的雲計算廠商,阿里雲有義務爲行業樹立一個標杆。

說幹就幹,在經過需求論證之後,阿里雲將這一數據安全產品上升到戰略高度,定爲2019年阿里雲基礎產品的6大戰役之一,並起了一個代號——水晶計劃。

2.從水晶計劃到透明廚房

水晶計劃的過程則是一波三折。

最開始,阿里雲安全和產品團隊把問題想得很簡單,雖然不能把API接口全部對外,但直接把運維日誌給到客戶不就行了?

實際操作起來才發現,阿里雲的內部運維日誌是海量數據,大量的內部運維日誌非但不能給客戶產生價值,反而變成了一種白噪音——客戶並不能從海量日誌中分辨哪些東西對他是有用的。

同時,還有很多數據並非人爲操作產生,而是機器自動產生。黃瑞瑞告訴「甲子光年」:“比如說機器監控到某個集羣水位高了,就會自動遷移到其他地方,這個過程本身是符合安全要求的,即使給到客戶也沒有多少參考價值。”

有時候大而全不是最優解,反而給客戶帶來負擔。阿里雲需要小而美的解決方案。

最終,阿里雲將對外公開的日誌範圍縮小到人爲操作日誌。這樣能保證客戶拿到數據之後,快速分析和判斷阿里雲工作人員對客戶的數據執行了哪些操作。

理清思路後,接下來就是內部團隊的協調和開發。阿里雲做的第一個產品,是針對OSS存儲(對象存儲服務)運維日誌的透明化。OSS適合存放任意類型的文件,包括文字、圖像、視頻等等,因此也是阿里雲客戶使用最多的產品之一。

阿里雲做了兩層“透明化”,第一層是日誌的訂閱管理。

客戶可以通過訂閱的方式,在任何他想看的時刻來獲得阿里雲內部的運維操作日誌,來獲取什麼人員因爲什麼原因做了什麼操作。這是平臺爲了“自證清白”。

但如果將阿里雲內部的運維日誌不加處理交給客戶,有時候是沒有意義的。因爲這些日誌,只有在內部運維繫統的上下文中才有意義。因此要提取有效信息,並將其翻譯成客戶能看懂的示例。此外,阿里雲要保證數據脫敏,不能在保護客戶數據的初心下反而造成雲廠商數據隱私的泄露。

第二層“透明化”,是在第一層的基礎上再加一層保險箱,稱爲客戶工單的授權管理。

黃瑞瑞告訴「甲子光年」,當客戶發起工單,平臺會追加一個子項目,在工作人員操作之前向客戶申請授權,“工單是工單,授權是授權,如果只有工單沒有授權,我們是不會進行任何操作的”。

這樣,阿里雲不僅要打通工單系統,還要打通授權系統。儘管這增大了工作量,但能夠讓客戶買的安全,用的放心。

阿里雲將這個產品的理念描述爲“透明廚房”。顧名思義,阿里雲將雲服務比作去餐廳吃飯,過去人們看不到菜品的烹飪過程。而在透明的廚房,人們可以像在家裡做飯一樣,看到每個菜的烹飪細節。

2019年下半年,經過一個6人小組以及存儲產品團隊小夥伴們半年多的努力,針對OSS存儲的“透明廚房”終於落地了。在推向市場的時候,阿里雲卻同時得到了一個好消息和一個壞消息。好消息是,客戶對此產品的評價是“有幫助”,壞消息是“幫助不大”。

原因也很簡單,企業不僅僅用阿里雲OSS存儲這一個產品,也用了數據庫、雲盤、大戶數據分析等等產品,只保證OSS存儲這“一道菜”的透明化遠遠不夠,必須擴大到“滿漢全席”。

如果說OSS存儲是透明廚房從零到一的探索性產品,接下來的兩年,透明廚房團隊做的事情就是從一到十的規模性擴大。如今,透明廚房已經適配了包括數據庫、雲盤在內的超過十款阿里雲主流產品,並延伸到了線上賬號管理系統和權限管理系統,以及密鑰管理系統。

有一個金融客戶讓黃瑞瑞印象深刻。在聽說阿里雲研發了透明廚房之後,該金融客戶打電話給黃瑞瑞說,他們正在內部審計,比較着急,“如果提交工單之後能第一時間看到阿里雲的運維日誌,不管需要多少錢,我馬上就買”。黃瑞瑞則告訴對方:“日誌可以馬上給,但是不要錢,這是免費的產品。”

對此,黃瑞瑞向「甲子光年」解釋:“透明廚房沒有商業化的計劃。我們認爲數據安全是阿里雲應該提供的基礎服務而非增值服務。”

後來,黃瑞瑞收到了審計部門對於透明廚房的反饋,只有簡單一句話:“做的不錯,這是一個新的可審計數據集,符合可審計的需求。”

這給了透明廚房團隊很大的鼓勵。

3.行至雲深處:可靠、可控、可見

在數據安全之下,如今雲計算的發展正呈現出兩個趨勢。

第一是針對數據安全生命週期建立全鏈路保護機制。

數據的全生命週期一般爲6個階段,包括數據採集、數據傳輸、數據計算、數據交換、數據存儲到數據銷燬。黃瑞瑞告訴「甲子光年」,幾年前雲廠商的宣傳大多停留在單點保護,而實際上客戶需要的是全流程全週期的保護。

透明廚房不針對某一階段,而是貫穿數據全流程的產品。不過現在,透明廚房相對側重在企業更常用的數據計算、數據傳輸和數據存儲,來記錄數據是否被觸碰或修改。

基於6個階段和1個全流程產品,阿里雲將其數據安全能力總結爲三個詞:可靠、可控與可見,三者螺旋交替,互爲補充。

可靠性,是指阿里雲建立的全鏈路數據保護機制。雲上數據的6個關鍵階段都需要不同的安全能力,這依賴於阿里雲高安全等級的基礎設施產品。

每年的雲棲大會也是阿里雲基礎產品的集中發佈會。今年,阿里雲發佈了自研CPU倚天710、磐久服務器、第四代神龍架構等基礎產品。比如,通過自研的神龍雲服務器,阿里雲能提供“芯片級”加密安全環境,只有用戶才能看到並使用自己的數據。

可控性,是指阿里雲把數據控制權交給用戶所有。這裡的數據控制權,主要指數據“密鑰”。

企業的數據明文通過加密算法加密後就會變成數據密文。無論國際還是國內,都對加密算法有嚴格的合規標準,就像一個數據保險箱,打開保險箱的唯一方式就是拿到保險箱的鑰匙,即“密鑰”。

阿里雲做的就是把加密算法的密鑰,完全給到用戶。目前阿里雲上40餘款產品支持全鏈路加密能力,和在適用場景下的自選密鑰能力,讓用戶對數據的調用和讀取具有完全的控制權。

最後是可見性,即透明廚房。

阿里雲目前已經實現雲平臺內部操作完整記錄,並通過了第三方權威審計公司的嚴苛審計,審計期間會做大規模隨機抽樣,可驗證阿里雲是否遵循嚴格的安全控制措施。目前,阿里雲幾乎已經拿到了安全合規領域的“全滿貫”資質。

第二個變化趨勢是黃瑞瑞從客戶側感受到的——客戶越來越懂行業了。

過去客戶會糾結於上不上雲,現在這已不成爲問題了。早在2019年Veritas(數據管理公司)對1654名來自世界各地的雲架構師和管理人員做了調研,80%的中國受訪者表示“他們希望將大部分甚至全部的應用程序放至公有云架構中”。

同時,客戶的專業性也越來越高。黃瑞瑞提到:“我們其實很早就在做全鏈路加密和自選密鑰的雲產品功能了,但是一直到最近的一年多客戶的需求才呈現井噴式增長。很多客戶開始問我們密鑰的控制權能不能交給他們,放在過去如果我們不提,可能很多人都不知道有自選密鑰這回事。”

黃瑞瑞認爲,雲廠商與客戶各進一步,是這個行業正在走向成熟的一個標誌。

今年的雲棲大會上,行癲的演講主題是“雲深處,新世界”。行至雲深處,這是雲計算髮展的一個縮影,而保護數據安全始終是第一原則,就像“水晶計劃”名字所希望的那樣,透明而堅固。