《數據安全法》正式表決通過 | 洪小文:探索數據要素的賦能作用
編者按
6月10日,《數據安全法(草案)》經十三屆全國人大常委會第二十九次會議表決通過。這部法律是數據領域的基礎性法律,也是國家安全領域的一部重要法律,將於2021年9月1日起施行。目前,世界各國和地區相繼出臺了相關的保護數據安全與數據隱私的法律法規。《》(點擊訂閱)長期關注數據安全,微軟全球資深副總裁、微軟亞太研發集團主席、微軟亞洲研究院院長洪小文在2021年5月刊發表文章表示,當前大數據治理體系遠未形成,建立全面系統的大數據治理體系,共同破解種種影響數據安全與隱私保護難題。同時,在保護隱私和保護數據安全前提下,能夠開放非隱私數據也至關重要。
文/洪小文
微軟全球資深副總裁、微軟亞太研發集團主席、微軟亞洲研究院院長
數據賦能首先需要把數據變成知識形成行業洞見,最後基於洞見來指導決策及行動,完成價值的實現。目前,數據依然是有邊界的,有國界的,這在一定程度上決定着大數據市場的走勢,在保護隱私和保護數據安全的前提下,開放更多的能夠開放的非隱私數據至關重要。
十年前,有人戲說,“或許在未來,人們見面可能不是問你有多少資金,而是問你有多少數據;對於一家公司競爭力的評判,或許不僅僅是問技術水平如何,還會問公司有多少數據”。現在,這樣的“戲說”成真,人類進入數據經濟時代,數據的重要性已毋庸置疑,數據成爲與土地、勞動力、資本、技術等一樣重要的新型生產要素,正在各個領域發揮着倍增器的作用。在數字經濟時代,怎樣佈局才能把數據變成真正的財富,變成生產力?又怎樣做才能避免數據帶來的種種挑戰?
數據的本質與特性
人類發展的歷史,正是一個數據不斷產生和積累的過程,某種意義上看數據的規模是與人類文明的發展程度和經濟的發達程度成正比的。經濟系統甚至可以被看作是數據處理系統,任何實體的價值都取決於其對數據處理的貢獻。
那麼,數據到底是什麼?答案是對客觀事物的性質、狀態以及相互關係等進行記載的物理符號或這些物理符號的組合。它既可以是連續的值,比如聲音、圖像,稱爲模擬數據;也可以是離散的,如符號、文字,稱爲數字數據。
從最開始的堆積石塊木棍或擺弄指趾記數,到使用結繩和契刻,再到今天的用激光干涉法捕捉引力波,人類對於數據獲取手段越來越豐富,所積累的數據也越來越多。
人們常常會聽到這樣一種說法,“大數據是數據經濟時代的‘石油’”。很長時間以來,石油是社會發展和人類生存不可缺少的能源資源之一。在現代文明社會,如果沒有了能源,一切現代物質文明也將隨之消失。爲什麼說記錄客觀事物的“符號”或“符號組合”如同石油,會影響並賦能各行各業呢?因爲在數據經濟時代,每個行業、每個領域的發展都無法脫離數據的賦能,數據正在給每一個領域帶來巨大的變量。
我們來看羅爾斯·羅伊斯(Rolls Royce)公司的故事。羅爾斯·羅伊斯是著名的英國航空發動機、船舶發動機製造公司,通過傳感器可以掌握髮動機的任何細微變化,包括振動、壓力、溫度、速度等,從而可以依靠數據在問題發生前做到維修預警,這種可預防的維修(或叫做精準維修)可以把發動機的故障降低到最低,從而增加航空公司的獲利。除了可預防的維修,羅爾斯·羅伊斯公司還可以向航空公司提供全新的數據服務,比如根據航道與發動機狀況、天氣因素精準計算飛機應該攜帶的航油量,既保證有足夠的油量飛行,又不至於着陸時過高的油量成爲危險因素。這些例子都是各行業成功運用大數據在數字化轉型中極其成功的案例。
數據的賦能效應,在我們今天的生活當中正越來越多發生,在音樂網站瀏覽喜歡的音樂,網站不僅僅給出了此刻我想聽的,還給出了我心中所念卻一時想不起名字的音樂,瞬間有種“被懂得”的驚喜,而“懂你”的那個人是“大數據+數字音樂個性化推薦算法”。又比如,在抗擊疫情時,利用大數據與人工智能可以縮短確診時間併爲尋找特效藥贏得時間,原來一個醫生肉眼研判電子計算機斷層掃描(CT)片子可能需要5~15分鐘,大數據與人工智能(AI)結合之後,幾十秒內就可以準確地對新冠疑似案例CT影像做出判讀。利用大數據,製藥公司能夠加速新藥的研發,工廠能夠改進工藝,提升產品品質,農民能夠更好地預防氣候和病蟲害影響提高農作物的產量,等等,利用數據實現賦能的場景不勝枚舉。
而在衆多的數據賦能案例的背後,都有着這樣一條邏輯線:“符號—數據—信息—知識—決策—行動”(見圖1)。首先需要把數據變成知識,形成行業洞見,最後基於洞見來指導決策及行動進行改變,完成價值的實現。其中有幾個關鍵點:一是數據是否足夠豐富,是否準確,能否呈現事物的真實狀態;二是將數據變成行業洞見需要讀得懂數據的“慧眼”等等;三是這個洞察數據的能力是循序漸進的,它的不斷成熟來自建立一個“反饋閉環”(見圖2)。當下,AI 的發展處於認知層次,包含理解、洞見、推理、計劃與決策等能力。至於認知能力的進化動力則主要來自一個反饋閉環。這一閉環依賴於傳感器與執行器兩大部分,表現爲通過傳感器,將物理世界的數據傳輸至系統,系統對相關數據進行分析後,經人機協同(人工智能和人類智慧,簡稱AI+HI)制定決策,並反饋給執行器,再由執行器在物理世界實施決策。在這個閉環中,AI+HI 肩負着最重要的分析與決策任務。
羅爾斯·羅伊斯公司爲了真實捕捉髮動機引擎的狀態,在每一個引擎上都加裝了數以千計的傳感器,從而獲取振動、壓力、溫度、速度等各個維度的數據,才能把引擎上每一個細微的變化都捕捉到;與此同時,羅爾斯·羅伊斯根據多年積累的發動機引擎經驗通過“反饋閉環”不斷改進其算法,打造了洞悉發動機引擎的“慧眼”,基於此,能夠快速從海量數據中識別和判斷出引擎的健康狀況。
同任何事物都有衡量標準一樣,我們通常會用“面積大小”來衡量土地,會用“錢多錢少”來度量資金,而與土地、勞動力、資本、技術其他生產要素不同,數據這種新型生產要素,有它自己的特殊“習性”。比如它不會因爲被使用而減少或消失,衡量它的維度,可以用幾個“V”來表達,即大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)、真實性(Veracity)等等。在業界有一句說“沒有哪一個數據比‘大量數據’有效”,意思是說再好的數據未必就有海量數據價值更高,強調的就是數據的海量性;也有一句說:“時間越近的數據價值越高”,強調的就是數據的“及時性”。
關於數據的及時性,我們依然以羅爾斯·羅伊斯的飛機發動機引擎數據來談,要準確判斷飛機引擎健康狀況,除了要求數據的多樣、大量之外,數據的高速(實時性)同樣非常關鍵,如果數據傳送延遲,發動機出了問題才後知後覺,我們只能成爲“事後諸葛亮”。
依據數據的“習性”和釋放價值的方式,我們需要在採集和收集數據的時候,更完整地呈現這些維度。
如何利用數據實現賦能
如何讓數據真正賦能各行各業,發揮其新型生產要素的能力呢?
首先需要建立“數據意識”並將“數據要素”嵌入業務流程中。今天,很多機構、企業儘管已經知道數據的重要性,但在真正的業務決策和業務運作中依然是“數據是數據,業務是業務”,收集來的數據並沒有進入企業的決策和業務運作流程當中,依然是“橋歸橋,路歸路”。
事實上,當企業的生產要素髮生改變時,需要與之相匹配的業務模式和業務流程。企業進行數字化轉型,基於數據進行智慧化運營,需要重構業務流程,構建適合自己的數字化業務模式和業務流程,讓數據智能無縫地嵌入業務當中。(見圖3)
以山特維克可樂滿(Sandvik Coromant)爲例,這是一家給製造業提供工程機械和刀具系統的企業,業務遍及全球,爲了給客戶提供個性化的服務,每當客戶遇到問題,這家公司都會派出專家到現場進行幫助並提出進一步的服務建議。但是這樣的作業模式、服務方式,意味着需要大量的技術專家,而且技術專家不可能每時每處都在。因此,爲了滿足客戶個性化的服務需求,同時又能夠實現企業價值最大化,山特維克可樂滿在提供給客戶的刀具系統上加裝傳感器,通過系統將實時收集的數據傳輸到公司的客戶關係管理系統(CRM)中,並同步到呼叫中心,一旦用戶的刀具系統出現潛在問題,山特維克可樂滿就能夠即時通知客戶,保證客戶業務不中斷,實現持續生產,提升了效率。
山特維克可樂滿的數字化改造,有一個關鍵是將刀具、機器與流程結合在一起,完成了數據與業務的無縫嵌入,建立了一個完整的數據利用閉環,實現通過數據來自動化、智能化地爲客戶提供服務。
不同的行業、不同的企業的業務痛點不同,其利用數據的切入方式與模式也不一樣。可以是基於某一小場景建立數據應用的閉環,也可以是生態鏈上下游實現數據共享,還可以是一個企業的全面數字化轉型,基於數據建立新的商業模式。
其次,要不斷降低從數據中獲得洞見的門檻與成本。無論是收集收據、存儲數據還是分析數據,都有一定的技術門檻,也有相應的成本,而這些門檻與成本成爲讓很多企業止步於利用數據的一個重要原因。
加速數據賦能,需要推動數據獲取、存儲與分析的成本不斷降低,也需要這些技術與工具更爲易用,這也是整個信息技術產業發展的動力與目標。Gartner在定義大數據時這樣描述:“大數據是高容量、高速、極具多樣性的信息資產,它需要使用低成本、具有創新形式的信息處理方式來獲取洞見、制定決策。”這其中提到一個關鍵,即低成本來獲得洞見。事實上不僅僅是Gartner,互聯網數據中心(IDC)在表述大數據時,也給出了類似提法:“新一代技術和架構旨在實現高速採集、挖掘/分析,經濟地從海量數據中提取價值。”無論是IDC還是Gartner,他們都認爲更低成本和更經濟的方式在海量數據中獲得價值是新一代新技術發展的方向。
這些年,人工智能、大數據、雲計算等技術在這樣的目標下快速發展,讓數據利用的成本與門檻不斷降低。而近來的一些重要趨勢,如數據可視化、數據自動化、數據即服務等,呈現出加速發展的態勢。隨着第五代移動通信(5G)與物聯網的加速發展,企業的高速運轉,數據也在飛速增長。IDC預測,到2025年全球將產生200 澤字節(ZB)的數據,這必然要求從數據中獲得“慧眼”的工具與技術越來越自動化、更加智能化、更加人性化。Gartner認爲,在2022年,有超過40%的數據科學任務會實現了自動化。
微軟首席執行官薩提亞·納德拉在談到微軟技術發展的目標時表示,要確保技術強度全民化,賦能全民開發者。雲計算和人工智能等技術工具,應該掌握在全世界每一位知識工作者、一線員工、組織和公共部門機構的手中。“農民可以操作一架低成本的無人機在農田上空飛行,收集並傳回數據,在農舍中的智能雲和智能邊緣可以提供即時分析,例如哪裡是乾旱或病蟲害的高發區。在工廠車間的操作人員依靠下一代技術來辨別鑽頭位置的移動,從而確保精密製造。無論身處何地,醫生都可以利用增強現實技術進行虛擬會診,檢查病人身體,共享圖像,並即時從數據中獲得見解。”
要讓技術全民化,需要建立一種架構,使大衆可以跨越傳統上孤立的羣體和地域,廣泛訪問和使用必要的工具、數據和技術。與此同時,應將數字技能融入教育,讓持續學習成爲“新常態”。
一是需要將數字思維和數字技能的教育普及化。讓數字思維和技能的教育培訓覆蓋教育的各個階段,爲各個階段的學生提供相應實用的培訓和實習機會,讓每一個人在每一個階段都能夠便利和持續地更新與學習數字技能。
二是要重視傳統行業的數字技能在職培訓。媒體一般都比較關注新創公司帶來的顛覆式創新,給社會與經濟發展帶來的巨大提升,但事實上,傳統優勢企業憑藉累積的行業知識和洞見,其數字化轉型對整個實體經濟的高質量發展也有着深刻影響。爲滿足數字化轉型的需求,要對在職員工進行培訓,通過提高數字技能,發揮他們對行業的專業積累,從而加速企業數字思維的形成,從數據中獲得洞見。要達成這樣的目標,需要增強員工終身學習的內驅力,建立自信心,同時需要實現數字技術“去神秘化”,推動包括無代碼、低代碼等便捷工具的逐漸普及,降低掌握數字技能的門檻。
三是要重視國際通用的行業認證。國際通用的行業認證,能夠提升全民對於數字技能的重視。要讓數字技能的賦能成爲“新常態”需要全社會、全產業鏈都投入其中,形成一種終身學習的文化。
數據利用面臨的挑戰
隨着數據利用在各個領域的不斷深入,數據給經濟高質量發展和生活的便利帶來越來越多的可能性,同時我們看到在數據利用中暴露出一些令人擔憂的問題。
第一,數據隱私保護與數據安全。人們常說,在數字時代,我們“無處藏身”,因爲路上的攝像頭、銀行的人臉識別、手機上的應用程序(App)都記錄了我們的大部分軌跡。工廠的設備上網、各種物聯網(IoT)設備聯網,我們在充分享受數據帶來的巨大便利和賦能的同時,也存在很多的擔憂,用戶隱私數據泄露的事件屢禁不止,工廠物聯網被黑客攻擊。到底如何才能夠構築起更好的用戶數據隱私保護和數據安全保護的屏障,同樣成爲我們利用數據必須關注的重中之重。
目前,世界各國和地區相繼出臺了相關的保護數據安全與數據隱私的法律法規,比如歐盟出臺了《通用數據保護條例》(The General Data Protection Regulation,簡稱GDPR),對企業收集、控制和處理個人數據的方式做出了嚴格規範,如果違反GDPR,企業將面臨高達2000萬歐元或全球年營業額4%(兩者取其高)的鉅額罰款。比如美國出臺了相關數據保護法——《加利福尼亞消費者隱私法案》(California Consumer Privacy Act,簡稱CCPA),根據規定,罰款金額範圍定在100美元~750美元/受影響用戶,如果一個擁有100萬用戶賬戶的網絡服務因違規被罰款,這家公司很可能會倒閉。中國相繼出臺了《網絡安全法》《信息安全技術個人信息安全規範》《個人信息保護法(草案)》(Personal Information Protection Law,簡稱PIPL)等一系列法律法規。全球範圍內對信息安全和隱私保護的要求達到了新的高度。
當然數據隱私保護和信息安全僅僅是政府採取行動還不夠,當前大數據治理體系遠未形成,從大數據利用的倫理問題,到規範大數據分析技術經濟發展以及應用的標準、流程和方法,到研究更好的保障技術,等等,數據隱私保護與數據安全需要更多的維度、更多的機構與團體參與進來,建立全面系統的大數據治理體系,共同破解種種影響數據安全與隱私保護的難題。
第二,數據寡頭與大數據“殺熟”。數據正在成爲新型的生產要素,一些科技巨頭因爲擁有巨大的平臺優勢,掌握大量數據,有可能成爲數據寡頭,帶來數據壟斷。數據壟斷比技術壟斷更難突破,容易產生所謂的數字鴻溝問題。隨着數字經濟時代的到來,數字鴻溝正呈現出多樣化的特徵,既有微觀主體視角下個人、企業層面的數字鴻溝,也有宏觀地理範圍視角下地區、國家層面的數字鴻溝。如何避免數據壟斷造成的新數字鴻溝,是我們在數據經濟時代必須要思考的問題。數據利用是一把雙刃劍,如果我們以“科技向善”的角度出發來利用數據,能夠很好地將數據造福於大衆,加速經濟的高質量發展,如果被利益驅動缺乏底線,則有可能帶來巨大危害。從2020年開始,一些用戶遭遇大數據“殺熟”的事件被曝光出來:買同樣航班的機票蘋果手機比安卓手機要貴,同樣的位置叫車,安卓手機比蘋果手機要便宜,在網上買同樣的商品老客戶比新客戶要貴,等等。在數據給我們帶來便利的同時,我們也被一些互聯網平臺企業運用數據“割韭菜”了。
最近,一些中國的互聯網平臺企業簽署了《平臺企業維護公平競爭市場秩序承諾書》向社會承諾,不非法收集、使用消費者個人信息,不利用大數據優勢“殺熟”。我們期待越來越多的科技企業加入到“科技向善”的隊伍中來,目前在歐美,一些公司已經在公司內部建立的“技術道德委員會”規範技術原則,推動科技向善。
我們積極推動數據開放(Open Data)的理念,通過更開放地共享數據,破解人類面臨的重大挑戰。目前,數據依然是有邊界的,有國界的,這在一定程度上決定着大數據市場的走勢,我們相信在保護隱私和保護數據安全的前提下,開放更多的能夠開放的非隱私數據至關重要。當下,人類面對大量的難題,包括全球規模的流行病、氣候相關的危機、環境的污染、能源枯竭的壓力等等,我們需要攜起手來,開展跨國大數據合作,建立數據共享機制,在保障數據安全的前提下促進數據的跨境流動。
將不涉及隱私、不涉及安全、不涉及知識產權的數據開放,有助於加速科學研究,加速應對很多重要難題。在抗擊新冠疫情的過程中,有很多這樣的例子,2020年2月7日,中國國家生物信息中心(CNCB)/國家基因組科學數據中心(NGDC)將其新冠病毒基因組序列實現與美國國家生物信息中心(NCBI)核酸數據庫GenBank數據同步與共享,該信息庫爲全球研究人員提供數據服務,爲廣大科研人員開展對新冠病毒的深入研究與疫情防控提供方便快捷的數據支撐。目前許多國家都將其新冠病毒的基因序列向全球共享,這些基因序列數據能夠在很多維度加速抗疫,加速診治,併爲疫苗研究、新藥研究,流行病學研究帶來巨大益處。比如將新發生的新冠病例基因序列與全球已公開的基因序列進行比對,能夠快速確認新發病例的來源。又比如關於疫苗的研發,印第安納大學通過對輪狀病毒基因組進行反向工程,有可能促進兒童疫苗的研發。但目前很多新冠病毒基因序列數據並未能夠公開共享,所以最近數百名科學家聯名呼籲全面公開共享新冠病毒基因組數據,以幫助分析變異病毒是如何在世界各地傳播的,科學家在呼籲中寫道,科學界應該“消除限制有效數據共享的障礙”。
另一個這方面的例子是關於全球氣候問題,在21世紀,我們面臨的最大氣候問題是“全球變暖”。要阻止全球變暖,避免氣候變化的最壞影響,人類需要停止向大氣中排放溫室氣體,需要電力、製造業、農業、交通等各個產業實現零排放,需要我們重新佈局能源的使用,積極推進碳中和。目前全球已經有50多個國家相繼宣佈在21世紀中葉實現碳中和目標,衆多研究機構、團體正在積極推動碳中和技術與路徑的研發,瑞士洛桑聯邦理工學院的研究員開發建築物能源模型,希望降低生活的能源消耗;哥本哈根研究機構希望研究新型的智能電錶來推動人們節約能源;一項由中外科學家共同研究的項目發現人類排放的氣溶膠顆粒對地球有降溫作用,可以部分抵消溫室氣體引起的全球變暖;微軟宣佈於2030年實現負碳排放,到2050年清除自公司創立以來所有排入大氣中的碳。目前,在世界各地從事碳中和相關技術研究的科學家們有一個共同感受,即可用於研究的數據太少,氣候影響涉及衆多因素,需要衆多維度的數據,迫切希望在抑制氣候變暖的研究主題下,獲得更多可以共享的非隱私、非信息安全數據。作爲人工智能領域的研究人員,我們非常希望在科學研究領域能夠實現更大範圍的數據共享,更快地破解人類面臨的諸多重大難題。
本文刊發於(點擊訂閱)2021年5月刊,2021年5月5日出刊,編輯:秦婷
歡 迎 訂 閱
深刻|思想|前瞻|實踐
專注於經濟金融政策解讀與建言的
智庫型全媒體平臺