生成式AI大會沸騰北京!從Sora到具身智能,25位大佬密集輸乾貨
智東西作者 智東西編輯部
今日,在春風拂面花千樹的北京,我們爲生成式AI舉辦了一場隆重且專業的春日派對。
智東西4月18日報道,以“重構世界 奔赴未來”爲主題的2024中國生成式AI大會今日正式開幕,今明兩日,有54位產學研投重量級嘉賓代表將同臺探討生成式AI的發展現狀與未來趨勢。
大會首日,由歐洲人文和自然科學院外籍院士、清華大學人工智能研究院常務副院長孫茂松領銜,25位嘉賓圍繞大語言模型、視頻生成、具身智能、音樂生成、世界模型、垂類行業大模型、AI全棧軟件、加速大模型端側部署等前沿議題,分享最新的研發與實踐經驗。
在1230平方米宴會廳的會場,線下參會觀衆人潮洶涌,開幕式更是全程爆滿,連下午分會場實行收費制的具身智能技術研討會也是座無虛席。展區同樣人頭攢動,交流氣氛熱烈濃厚。
值得一提的是,會上,AI+終端創企李未可科技正式發佈爲眼鏡等未來終端定向優化的自研WAKE-AI多模態大模型,具備文本生成、語言理解、圖像識別及視頻生成等多模態交互能力。
作爲智一科技傾力打造的產業峰會IP,2024中國生成式AI大會由智東西和智猩猩聯合主辦,安排覆蓋生成式AI全產業鏈的豐富議題,並將於明日上午公佈中國生成式AI企業TOP50。
“過去一年,生成式AI狂飆突進,整個產業鏈成爲全球創新、投資和應用最活躍的領域之一。”智一科技聯合創始人、CEO龔倫常代表主辦方爲大會致辭,“我們正站在歷史的轉折處,見證和參與由生成式AI引領的新一輪科技變革。”
▲智一科技聯合創始人、CEO龔倫常
龔倫常還預告了今年多個重要會議——在上海,2024中國生成式AI大會·上海站將於11月舉行,中國智能汽車算力峰會將於6月舉行;在深圳,第六屆全球AI芯片峰會和第六屆全球自動駕駛峰會分別將於9月和12月舉行。歡迎大家參會。
一、高端對話:洞察中國創新機會,熱聊開源與閉源路徑選擇
高端對話環節以“解構生成式AI浪潮,洞察中國創新與機會”爲主題,由智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁主持,啓明創投合夥人周志峰、生數科技聯合創始人兼CEO唐家渝就生成式AI投資策略、大模型商業化路徑等話題分享觀點。
張國仁談道,這兩年我們確實發現生成式AI正從一個科技圈的熱門話題甚至出圈的話題,變得越來越務實,開始變成實打實的新質生產力,助力產業創新和各行各業的發展。
啓明創投周總談到洞察趨勢的方法,三種假設給自己判斷的參考都非常有價值;生數科技作爲國內前沿大模型技術和應用探索的新銳玩家,對技術和趨勢的洞察也值得產業研究。
▲智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁
“啓明創投是中國投資大模型最多的創業投資機構之一。”啓明創投合夥人周志峰談道,啓明創投在過去2年持續佈局大模型基於三個假設:第一,生成式AI尚處發展初期,基礎技術創新爲主流;第二,多數模型公司最終將演變爲模型應用一體化企業,對外輸出的是應用,他們更容易把握技術邊界,推動產品創新;第三,本階段絕大部分資金流向大模型公司,提供了更多的迭代機會。
周志峰認爲生成式AI應用企業,其0到1階段的成長較其他領域更長,需要同時克服TPF(Technology-Product Fit)和PMF(Product-Market Fit)兩大挑戰,而其他領域通常只需面對PMF一座大山。創業者和投資人都需要更大的耐心和定力。
▲啓明創投合夥人周志峰
生數科技聯合創始人兼CEO唐家渝分享說,生數科技之所以選擇原生多模態大模型技術路線,是因爲圖像、3D、視頻等同爲視覺模態,在模型訓練中是相互促進的關係。同時在商業化方面,通用大模型能夠應用於更多場景,面對場景需求變化能夠迅速作出反應。
談及開源與閉源的路線選擇,他認爲各有合適的商業路徑,開源的最大價值在於生態建設,但從模型能力提升來看,閉源還是會走在開源前面。
▲生數科技聯合創始人兼CEO唐家渝
二、縱覽多模態生成新範式,從視頻、音樂、人物到具身智能
在今日的大會上,國內視頻生成模型先鋒創企愛詩科技分享了積極追趕Sora的務實思考,具身智能代表玩家銀河通用機器人理性探討當前的侷限性與進步方向,剛剛發佈天工3.0大模型的崑崙萬維帶來了對前沿SOTA模型的思辨,阿里通義實驗室對人物視頻生成新範式進行解讀。
愛詩科技創始人兼CEO王長虎在大會開幕式演講中說,Sora是“一場可以推動行業發展的賣家秀”,驗證了Diffusion Transformer在視頻生成中的Scaling Law,我們很快將見證視頻創意工作者的工作流、內容生產和消費鏈條被徹底改變。
在他看來,追趕Sora的窗口期在一年前,而不是現在。中國在短視頻領域領先全球,同時短視頻也是最貼近用戶的內容形態。過去一年,視頻大模型經歷着從量變到質變。愛詩科技於今年1月正式推出PixVerse,目前已實現超1000萬次視頻生成,被全球創作者廣泛應用於AI內容創作中。
▲愛詩科技創始人兼CEO王長虎
成立於2023年5月的銀河通用機器人,是國內具身智能代表初創公司之一。北京大學助理教授、銀河通用機器人創始人&CTO、智源具身智能中心主任王鶴談道,目前面向通用機器人的具身多模態大模型的侷限在於數據來源有限、很難高頻輸出動作。他提到應對這兩大挑戰的方向,一是通過仿真世界提供訓練數據,二是採用三維模態模型提升泛化性和速度。
對此,銀河通用機器人構建了三層級大模型系統,包括硬件、仿真合成數據訓練的泛化技能、大模型等。基於該系統,機器人可實現跨場景、跨物體材質、跨形態、跨物體擺放、依據人類語音指令進行的開放語義泛化抓取,成功率達95%。
▲北京大學助理教授、銀河通用機器人創始人&CTO、智源具身智能中心主任王鶴
崑崙萬維董事長兼CEO方漢強調了“技術領先”在AI領域的重要性,不同於互聯網時代產品的商業模式導向,大模型時代應該是技術導向。
方漢談道,OpenAI在AI創企中的地位,本質上是其文本大模型的SOTA(當前技術指標第一)能力帶來的。對於當前的AI創業者,在圖像、視頻、音樂等任何賽道,只要能取得SOTA,就能通過技術優勢獲得大量用戶,後續再通過產品創新、商業模式創新把用戶固化在平臺上,形成自己的護城河。
▲崑崙萬維董事長兼CEO方漢
阿里通義實驗室XR團隊負責人薄列峰通過4個框架來解讀人物視頻生成新範式。基於這些框架的應用,正逐步落地通義千問APP。
人物動作視頻生成框架Animate Anyone可基於單張圖和動作序列,輸出穩定、可控的人物動作視頻;人物換裝視頻生成框架Outfit Anyone是基於服飾圖和人物形象;人物視頻角色替換框架Motionshop採用Video2Motion,基於視頻人物動作驅動3D數字人;人物唱演視頻生成框架Emote Portrait Alive能夠基於單張圖和音頻,輸出準確、生動的人物唱演視頻。
▲阿里通義實驗室XR團隊負責人薄列峰
三、大模型進入2.0時代!四趨勢、四要素、落地三階段
開源大模型領導者Meta爲何執着於世界模型?大模型落地應用當務之急需要解決哪些挑戰?
前Meta⾸席⼯程負責⼈胡魯輝談道,聚焦多模態大模型的後GPT-4時代呈現出4大趨勢,一是語言模型到多模態大模型,二是數據集成到向量數據庫,三是Agent到大模型操作系統,四是微調到Plugin(插件)。
他認爲大模型是通向AGI最靠譜的方法,並預測下一個AI 2.0爆發點及落地大方向將是AI for Robotics。這需要理解物理世界面臨的挑戰,包括數據標準化、模型分散且場景複雜、環境硬件限制、算力成本貴且訓練時間長等方面。
▲前Meta⾸席⼯程負責⼈胡魯輝
雲天勵飛“雲天天書”大模型技術負責人餘曉填將大模型比作人類知識的信息壓縮機,即壓縮海量數據,學習其中的統計規律。在大模型四大要素——參數、算力、數據、人才中,他認爲人才是最重要的根基,結合其他要素能實現高效的海量信息壓縮。
餘曉填將大模型落地分爲三個階段:技術找場景、場景反哺技術、場景找技術。目前處於第二階段,需要在深度場景挖掘更多數據,有針對地提升算法能力,找到技術變現在精度、成本、效率“三角約束”的平衡點。雲天勵飛的解決方案就是“算法芯片化”。
▲雲天勵飛“雲天天書”大模型技術負責人餘曉填
萬興科技副總裁朱偉談道,當下,大模型正從1.0圖文時代進入以音視頻多媒體爲載體的2.0時代。視頻創作需求量巨大,然而長期來視頻相關模型僅佔極少數,且大模型在音視頻領域的應用面臨數據集缺失、視頻內容結構及層級複雜、算力成本高等嚴峻挑戰。
進入2024年AI視頻年,萬興科技將在4月28日正式公測旗下萬興“天幕”音視頻多媒體大模型。該模型具有多媒體、垂直解決方案、算力數據及應用本土化三大特色,將支持60秒視頻一鍵生成,並具備視頻生視頻、文生音樂、文生音效等多項能力。
▲萬興科技副總裁朱偉
四、李未可科技首發多模態AI大模型,AI基礎設施升級助攻提質增效
邁入大模型時代,算法、應用與AI基礎設施都在競速快跑。
李未可科技合夥人&AI負責人古鑑宣佈,李未可科技首次發佈針對“AI+終端”定向優化研發的多模態AI大模型平臺WAKE-AI。他分享說,相比手機、新型硬件,眼鏡能帶來極致的輕薄,更適合室外場景的AI落地。
WAKE-AI使用MoE架構,針對眼鏡端用戶的使用方式、場景等進行了優化,在語音返回速度上能做到90%,ASR字錯率低於2%,能夠爲用戶提供戶外運動、文化旅行、日程管理及實時翻譯等多種多模態AI服務。古鑑還透露道,李未可科技即將推出搭載WAKE-AI的終端新品。
▲李未可科技合夥人&AI負責人古鑑
中科曙光智能計算產品事業部副總經理胡曉東談道,中科曙光通過異構平臺與算力網絡打造了算力基礎及能力,由於大模型閉環流程的每個環節對軟件棧有不同需求,打造AI全棧軟件也至關重要。
在基礎軟件棧方面,中科曙光推出了DAS AI Software Stack基礎軟件棧,通過多種AI組件、性能組件支持大模型快速遷移和優化。除此之外,中科曙光還深度還聚焦AI開發平臺、內容創作平臺、訓練推理平臺等多個平臺服務,並通過創空間WorkSpace將平臺能力進行資源整合與分配,支持AI能力化實踐。
▲中科曙光智能計算產品事業部副總經理胡曉東
陽光保險集團人工智能首席科學家杜新凱談道,大模型和保險的底層邏輯天然契合,融合“數字化轉型+大模型應用”的智能化轉型成爲當前階段保險業發展新質生產力最應該把握的科技主題。
陽光保險基於陽光正言GPT大模型,正在打造“三個智能化”,即銷售智能化、客服智能化、管理智能化,積極探索通過大模型深度賦能改變傳統的保險業務模式。
▲陽光保險集團人工智能首席科學家杜新凱
安謀科技產品總監楊磊指出,生成式AI正逐步成爲客戶端設備上的人機交互界面,而具備100億參數級別的模型已成爲終端設備的最佳匹配規格。然而,在終端部署這類大型模型時,仍面臨成本、功耗及軟件生態等多重挑戰。
在當前大模型發展的硬件驅動階段,楊磊談道,異構計算是部署端側大模型的理想選擇,它能最大限度地提升SoC的性能、能效以及面積利用率。NPU作爲端側AI應用的關鍵算力資源,將爲大模型的分佈式落地演進提供核心動力。安謀科技自研“周易”NPU面向大模型場景做了架構、內存牆等多方面改進。它採用多核設計,能夠同時支持卷積神經網絡(CNN)和Transformer架構,並已成功適配了國內外多個主流大模型。
▲安謀科技產品總監楊磊
聯匯科技CEO兼首席科學家趙天成談道,中大型企業普遍存在“知識斷層”問題,大量專業知識轉移、檢索效率低,導致行業數字化轉型受阻、技術創新遇到瓶頸,這對多模態大模型驅動的知識新引擎提出要求。
聯匯科技開創了三位一體產品棧“模型+工具+應用”,提供To B的全棧式AI2.0解決方案,通過智能體的人機對話、實時數據、自動決策能力實現員工提質增效。
▲聯匯科技CEO兼首席科學家趙天成
五、圓桌對話:通用AGI之路千萬條,開源至關重要
始智AI wisemodel創始人兼CEO劉道全擔任下午場圓桌討論的主持人,帶領嘉賓們探討了一系列關鍵問題,包括:大模型來臨前後的AI開發有什麼區別?如何看待閉源模型和開源模型路線之爭?以及大家在大模型開發中有哪些成果和挑戰?
劉道全認爲,通用AGI之路千萬條,開源是至關重要的一條。劉道全及其團隊於去年9月上線了國內第一個中立開放的AI開源平臺wisemodel.cn,該平臺已囊括了國內主要的大模型公司及科研院所最新發布的開源模型。
▲始智AI wisemodel創始人兼CEO劉道全
vivo AI解決方案中心總監謝偉欽認爲,端側大模型會是未來AGI道路上的一條重要路徑,可在給用戶提供個性化服務的同時,更好地保護用戶,也能支持在無網和弱網環境下的大模型應用。對於大模型企業來說也可以節約大量服務器成本。vivo自研藍心大模型率先實現端側化部署。
大模型及AI技術在很多維度上是對人能力的提升,如多模態大模型的圖文理解和問答能力可以很好地幫助視障用戶瞭解周圍的環境和事物,更好地工作生活。vivo會持續關注更多類似的大模型應用場景,並將支持更多的模型開源,同時希望藉助開源社區的力量迭代大模型效果和產品體驗。
▲vivo AI解決方案中心總監謝偉欽
硅基智能CTO林會傑認爲,雖然現在閉源模型暫時領先,但未來開源一定會比閉源更好。回顧互聯網時代,頭部搜索引擎公司都是基於開源軟件的力量構建產品,對於開發者來說,開源從體驗、效率到質量都更勝一籌,“只有敢開源的公司才能做出好的大模型”。
對於AGI,硅基智能的願景是在數字空間裡讓代碼感知、理解,像人一樣表達和交互,也就是具身智能。
▲硅基智能CTO林會傑
聯匯科技CEO兼首席科學家趙天成認爲,在AI技術早期不確定性時,投入基礎設施是明智之選。他在2020年歸國創業時顧慮小模型定製化成本過高,於是轉而做工具鏈等基礎設施,而後逐步確立了預訓練模型及Agent發展路線。趙天成希望五年後每個企業都有自己的數字助手,讓效率提升10倍以上。
▲聯匯科技CEO兼首席科學家趙天成
結語:共探中國生成式AI產業脈搏
除上述嘉賓外,還有7位技術專家在下午的智猩猩具身智能技術閉門研討會上進行乾貨分享。
繼去年在北京舉辦國內首場聚焦生成式AI的高規格創新峰會,今天,智東西與智猩猩連續第二年聯合舉辦聚焦生成式AI領域的行業盛會,希望通過豐富的議程設置、多元化的嘉賓經驗分享與觀點碰撞,讓大家不虛此行。
明日,精彩繼續,29位產學研代表將分享圍繞AI Infra、AIGC應用、AI智能體、智算中心等相關技術與應用,共探中國生成式AI產業的脈搏。