美國重發展歐洲重安全,中國AI如何既要又要?

在本次世界人工智能大會上,螞蟻除了發佈多模態醫療大模型和大模型安全一體化解決方案“蟻天鑑”2.0版,還發布了“隱語Cloud”大模型密算平臺,並圍繞隱私計算產品通用安全分級和個人信息匿名化制度,聯合國內多家產學研機構聯合發佈《個人信息匿名化制度白皮書:技術與法律(2024)》、《隱私計算產品通用安全分級白皮書》兩份白皮書。

相比更加貼近用戶的智能助手,隱私計算似乎離大衆相對遙遠和陌生,但數據要素在螞蟻集團未來的戰略中舉足輕重。

螞蟻集團董事長兼CEO井賢棟在今年數字中國建設峰會上表示:螞蟻面向未來十年的科技戰略有兩條主線,聚焦人工智能和數據要素,而隱語Cloud大模型密算平臺便代表螞蟻在數據要素領域的最新商業化進展。

今年5月31日,螞蟻成立了螞蟻密算科技,螞蟻集團副總裁兼首席技術安全官韋韜擔任董事長,釋放了一個關鍵信號——螞蟻在可信數據流通領域已經從技術探索開始走向市場。

根據螞蟻的展望,在打通了數據孤島實現可信數據流通後,上至智能大模型開發、AI智能醫療,下至農民小額貸款、新能源車險降價,數據要素流通將會徹底改變現在的行業生態,推動密態計算的普惠化。

在今年世界人工智能大會期間,螞蟻密算董事長韋韜和CEO王磊向觀察者網闡述了關於螞蟻在密算領域的技術探索和商業藍圖。

AI短期看算力,長期看數據

作爲近年來最火熱的賽道,AIGC的出現讓世界第一次見證了通用人工智能,這也讓不少人暢享AI即將改變未來的一切,然而AIGC的應用領域依然存在不少的問題,在本次世界人工智能大會上就有嘉賓表示:“聰明的AI幫小忙,笨的AI捅大簍子”,AI在垂直行業還有巨大的發展和進步空間。

對於AI的現狀和前景,韋韜認爲AI目前發展屬於初級階段,但未來的前景極其光明。

他表示,目前AI領域發展僅僅處於發明蒸汽機時代。作爲人類歷史上第一次通用動力,蒸汽機誕生時也很粗糙,這並不代表開始時汽車跑不過馬車就是蒸汽機的本質問題,而是需要進一步的迭代升級。

不少AI產業界人士也有類似的看法,華爲人工智能戰略與產業發展副總裁秦堯在人工智能大會《可信大模型助力產業創新》論壇上也表示,考慮到AI可能有50年發展進程,目前AI依然處於初級發展階段,有很大的進步發展空間。

而提到升級,去年以來,“算力恐慌”一直是國產廠商繞不過去的一個詞,對此韋韜有着不同的看法。

他認爲AI時代由算法,算力,數據三個核心要素構成,三者目前均有進一步發展的空間,而相比算法和算力,數據纔是限制AI能力上限的關鍵要素,無論在通用領域,還是專業的垂直領域,大模型最缺的都是數據,現在的算力恐慌,未來反而有可能變成算力陷阱。

韋韜解釋道,目前大模型在推理層面由於成本和性能的限制,不可能用非常複雜的算力,因此所謂的缺算力其實是指訓練時缺算力。而考慮到具體的使用場景,訓練需要的算力其實存在上限,不會無限制的升高,盲目囤積算力反而可能會面臨過度投資和能耗瓶頸的風險。

而比起可以克服的算力缺口,數據的缺口才是所有大模型企業面臨的更緊迫的共性問題。

當沒有數據的時候,無論是更聰明的大模型,還是最聰明的人都是做不出決策的,要硬做決策只能盲猜或者胡說八道。目前普遍出現的AI不夠專業的現象,本質則是因爲數據不足的原因,這個問題並不能靠算法和算力層面解決。

韋韜眼裡,真正的行業專業應用問題的解決,都是依賴於關鍵數據的供給能不能按需獲得,而中文語料的稀缺使得大模型無論在訓練還是推理層面都存在較大數據供給缺口,也成爲了限制大模型進一步發展的瓶頸。

要解決這個問題,最大的挑戰便是如何讓數據,尤其是高質量的數據流動起來讓其發揮自身的價值。

打破數據流通壁壘,是挑戰更是機遇

事實上,我國並不缺乏高質量的數據,但是現狀則是,鑑於對於數據安全和數據隱私的擔憂,越有價值的數據,反而愈發難以流通。

與美國“重發展弱監管”模式、歐洲的歐盟“強監管弱發展”模式不同,我國遵循的是“既要安全也要發展”模式,這也導致在數據充分開發使用上挑戰更大。

想要實現數據流通,存在高昂的信任成本,韋韜表示:數據非常容易被拷貝、分割、加工、變形,本來你的數據產品應該有1000個用戶、10000個用戶的,但你可能賣到第十家的時候,全行業都已經有了,因爲它非常容易被拷貝,所以商業利益也非常容易被侵害,大家也不願意讓數據流通。更糟糕的時候,明文流通時它會泄露,泄露後又很難追蹤是誰泄露的,這件事情導致數據源方有巨大的連帶風險,所以大家不敢流通。

而除了信任成本,數據的安全風險也不容忽視。

去年5月,由於一個月內出現三起內部代碼泄露事件,三星徹底禁止員工使用ChatGPT,這也給國內的企業敲響了警鐘,基於對大模型是否會拿數據二次訓練從而泄露核心技術和商業機密的不確定性,大量公司不允許將涉及公司機密和商業信息的內容輸入大模型。

而數據方對於數據安全的擔憂也並非杞人憂天。IBM《2023年度數據泄露成本報告》顯示,2023年數據泄露平均成本爲445萬美元,其中82%數據泄露涉及雲環境,而更爲令人擔心的是,有三分之二的數據泄露當事方甚至對此毫無知覺。

除開外部泄露風險,內鬼員工引發的公司數據泄露在國內也屢見不鮮,近年來就有某招聘網站公司員工出售簡歷庫信息造成2500萬元損失,某快遞公司快遞員勾結外部人士泄露用戶信息造成1200萬損失等案件。

北京交通大學信息管理理論與技術國際研究中心(ICIR)特聘教授張向宏對此表示,過去幾年,數據市場主要面臨着三大問題:數據“供不出、流不動、用不好”,數據“不敢用、不能用、不好用”,數據“確權難、定價難、流通難”。在他看來,在數據要素化的過程中,這三大問題需要分別用資源(制度)、技術和商業模式的路徑來破解。

針對數據“供不出、流不動”,在頂層設計上,從中央到地方已經開始出臺一系列政策——《加快公共數據開發利用指導意見》《促進數據流通交易指導意見》《“數據要素×”三年行動計劃(2024—2026年)》等均在加速理順制度卡點。而根據國家數據局今年以來在公開官方場合的表態看,一系列落地細則和配套規則均在緊鑼密鼓推進中。

在數據流動的政策東風之外,大模型行業的蓬勃發展對於數據,尤其是高質量數據的如飢似渴,也讓螞蟻看到了商業化的機遇,如果能夠給數據方吃“定心丸”,打通數據孤島,這不僅意味着大模型乃至整個AI行業的爆炸性發展,也代表螞蟻能夠將自己在數據要素流通的儲備技術實現商業化,這也是螞蟻投入密態計算的契機。

韋韜表示,我們認爲數據密態是未來的必然趨勢,密算會成爲數據可信流通的新算力。只有讓數據是密態方式流通的時候,才能發揮正向價值、控制負向風險。現在有太多的數據源方不敢把數據拿出來,因爲發揮數據價值的過程本身會造成泄露,而密態研發會把以前不能流通的數據流通起來,發揮數據價值。

7月5日,螞蟻密算在世界人工智能大會上發佈“隱語Cloud”大模型密算平臺,“隱語Cloud”大模型密算平臺首批推出兩大服務,分別爲大模型密態託管和大模型密態推理。大模型密態託管,指模型提供方可以將模型加密後託管在平臺上,一鍵完成雲上密態部署,保護模型資產不被泄漏和盜用;大模型密態推理,是指數據以密態形式完成推理,保護用戶交互時的數據安全、商業機密等。通過軟硬件結合的可信隱私計算技術,在大模型託管和大模型推理等環節實現數據密態流轉,保護模型資產、數據安全和用戶隱私。

今天的密算就是十年前的雲計算

實際上,對於數據安全的需求,市面上已經存在多家隱私計算公司提供相關的服務,但是翻看行業發展,由於高昂的安全成本,不僅沒有公司近年來高速發展脫穎而出,甚至整個行業甚至顯得有些掙扎,學界甚至傳出了“不是隱私計算用不起,只是別的技術更有性價比”的言論,那麼此時螞蟻決定進入這個賽道,能否給行業帶來變化呢?

對此王磊表示,數據安全客觀存在成本,目前行業客戶端用不起,企業端虧不起的現狀背後是隱私計算只能解決小規模的應用,不僅很難實現規模化,賣軟件模式的高交付成本也將極大地給數據安全企業帶來經營壓力。

對於螞蟻密算的商業模式,王磊認爲一方面隱語Cloud平臺通過用可信芯片和機密計算技術來協同保障,從而大幅度降低成本,實現低成本密態計算,形成行業裡規模化應用方案。

而另一方面,螞蟻密算試圖通過結果導向,通過保證安全來降低企業維護數據安全的額外成本,並通過數據獲利分成的方式,實現數據方和螞蟻密算的雙贏。

針對企業是否有必要購買數據安全服務的問題上,韋韜也坦承,並非所有數據企業均需要數據安全服務,即便需要數據安全服務,數據安全的等級需求也不盡相同,螞蟻密算計劃從高價值場景數據入手,最終實現行業的規模化發展。

對於密算領域的發展前景,韋韜表達了積極地看法:十幾年前,剛推出雲計算的時候,大家覺得這不就虛擬化嘛,但真正上雲後,上規模後,本質的改變發生了。我們認爲算力從智算會走向密算,算力變化讓全行業有巨大的改變,演變的速度及對中遠期的影響比我們今天想象大得多。

對於目前客戶畫像和落地場景,螞蟻密算也分享了數個實際案例。

在新能源車保險領域,由於新能源車駕駛習慣,駕駛人羣屬性均較傳統燃油車有所區別,但保險公司的數據不足,無法通過多維畫像對,爲了覆蓋新能源車的額外風險溢價,最終形成了新能源行業低電費,高保費的現狀,而通過密態計算,保險公司有從險的數據,平臺的從人的數據,以及從車的數據融合起來,更精準判斷車主出險概率多大。螞蟻密算通過和人保財險、平安產險、太平洋產險多家保險公司合作,使得新能源車平均保費下降了8%。

而在金融領域,螞蟻密算則舉了一個農民貸款的案例,過去由於貸款金額低,盡調成本高,農民貸款一直是利潤微薄甚至是金融機構不賺錢的領域,成爲了金融服務難以覆蓋的盲區。

而農業農村部大數據發展中心與網商銀行、螞蟻集團聯合發起的“農戶秒貸”服務,基於隱語與星綻可信隱私計算技術棧,聯合搭建金融風控模型,發起農戶秒貸服務。截至2024年5月初,超過600萬種植戶獲得貸款額度,其中78.3%農戶種植面積不到10畝,是以往金融服務難以覆蓋的人羣。該項目還入選了2024年國家數據局“數據要素x”典型案例。

韋韜對觀察者網表示,基於現有的行業實踐,他對於行業的發展非常的樂觀,認爲最快三年,密算行業就將迎來高速發展階段。

行業發展不能靠單打獨鬥

對於行業發展的終極形態,韋韜描述爲數據要素行業將從最初的數據孤島,就像自家水井一樣自產自銷,走向“桶裝水”式的點對點流通,接下來大規模數據流轉會發展爲猶如“城市自來水網”的行業、區域間可信流通,走向未來更廣域的可信流通,形成綜合水利工程。大模型產業及各種數據要素的應用場景,都能充分應用數據要素價值,實現跨行業、跨地域和跨雲可信流轉和互聯互通。

想要實現這樣的商業生態,除了企業層面的技術實力,行業技術生態和技術體系標準也不可或缺。

而想要實現數據流通,面臨的兩個最現實問題便是個人隱私的保護,當數據不在某一個封閉系統內單獨流轉而變成互聯互通,如何保障個人信息隱私成爲了行業發展的重要課題。

值得注意的是,在本次人工智能大會上發佈了《個人信息匿名化制度白皮書:技術與法律(2024)》,由對外經濟貿易大學、大數據技術標準推進委員會和螞蟻集團共同發佈。這是學術與產業界首次聯合從技術與法律雙重維度對個人信息匿名化問題做系統性梳理與闡釋、探尋可落地技術方案與數據流通解決路徑。

而在提出了個人信息匿名化制度的同時,如何建立行業標準,讓產業落地也成了行業發展的核心問題。

目前,由於隱私計算技術路線衆多,在產業落地應用中出現“講不清”“看不懂”“不敢用”的情況。隱私計算產品需要安全分級方法,可以爲實際產品選型提供指導,讓隱私計算技術在產業界得到大規模落地。

當前,雖然針對單一技術路線已經有一些安全分級標準,但是不同技術路線的分級標準完全無法對應,用戶無法對所有的產品進行橫向比較,這些標準也不適用於新出現的技術路線。因此,適用所有技術路線的通用安全分級思路亟需明確,來引導數據跨域流通不同技術的安全評估工作。

爲了解決這個問題,在本次人工智能大會上發佈了《隱私計算產品通用安全分級白皮書》

該白皮書由螞蟻集團、中國通信標準化協會大數據技術標準推進委員會、深圳國家金融科技測評中心、清華大學牽頭編寫,另有國內16家機構參與編寫。編寫指導組成員包括中國科學院院士、國際密碼協會會士王小云,浙江大學計算機科學與技術學院院長、區塊鏈與數據安全全國重點實驗室副主任任奎等權威學者。

在本次人工智能大會上,螞蟻集團董事長井賢棟表示,未來智能化的用戶體驗,一定不是隻靠一個大模型,而是需要全行業深度協作,需要很多的專業智能體共同參與、各司其職。螞蟻堅持走開放道路,和行業共建專業智能體生態。

而對於螞蟻密算而言,本次白皮書的發佈也代表了螞蟻準備深耕數據要素賽道,和合作夥伴共建行業生態和行業標準的決心。

螞蟻集團CTO何徵宇曾描述過螞蟻未來的發展路線,螞蟻的第一個十年聚焦於支付,第二個十年聚焦於金融,那麼螞蟻的第三個十年的重點便在於科技,螞蟻希望未來成爲大衆眼中的一家科技公司。

在本次人工智能大會上,韋韜則描述了他眼中螞蟻密算的使命:“螞蟻集團是非常篤定相信數據的價值,我們的業務是也很依賴於數據。我們認爲數據要素的流通將爲全社會、全行業帶來巨大的變革,這個變革是非常深遠的。螞蟻密算的使命是通過密算科技推動數據可信流通。”

自從2016年開始在隱私計算開啓探索,到如今數據要素成爲螞蟻集團科技核心戰略併成立密算公司開啓商業化,在未來的人工智能時代,螞蟻不僅想做C端的多模態智能助理,更想做B端的賣鏟人。