兩會之聲|委員建言大模型產業發展:供給高質量語料,打造標誌性應用場景
生成式人工智能(AIGC)迅猛發展,引爆新一輪人工智能大模型產業化熱潮,形成全新產業風口。上海積極佈局大模型產業,全國首個大模型創新生態社區“模速空間”2023年9月在上海徐彙區揭牌後,已匯聚千餘家人工智能企業、255家大模型企業以及100餘家投資機構。
2025上海兩會即將召開,上海市政協委員、上海社會科學院經濟研究所所長沈開豔擬提交《推動大模型產業高質量發展 激發上海經濟增長新動能的建議》。提案認爲,大模型產業是上海發展新質生產力、加快塑造經濟發展新動能的有力抓手,但面臨着自主研發成本高、高質量語料獲取難、技術商業化進程慢等瓶頸,亟待有效舉措予以破解。
在前期調研中,沈開豔發現,大模型企業自主研發成本高,高性能計算設備成本佔據研發成本大頭,企業只能靠創新算法架構等策略提升訓練效率和降低訓練成本。解決這些瓶頸,直接融資至關重要,但上海大模型企業獲取直接融資量級偏低。
她注意到,高質量語料獲取渠道受限是制約大模型訓練實效的重要瓶頸。儘管上海已有語料公司落地運營,且提供的語料質量較高,但其數量偏少且價格偏貴。因此,很多大模型企業偏向於從網絡公開語料或者公開數據中獲取語料用於大模型訓練,導致數據質量無法保證,數據格式不統一,降低大模型訓練實效。
沈開豔還指出,上海目前真正落地並實現商業化運營的大模型應用場景稀少。由於大模型企業內通曉大模型技術與應用的複合型人才匱乏,企業對可能催生的用戶需求不明確,影響技術商業化進展和潛在場景的挖掘落地。此外,大模型技術商業化進程慢,還與解決技術、數據安全、隱私保護、過程可解釋性等相關法律制度滯後相關。
針對上述問題,提案提出了三方面建議:
首先,打造全鏈條股權投資體系,搭建公共技術服務平臺。
一是發揮政府投資基金引導作用,圍繞大模型領域新設和引入產業基金,引導社會資本加大大模型領域成果轉化和產業化投資力度,建立從天使投資、風險投資到股權投資的全鏈條股權投資體系,爲產業發展提供穩定持續資本供給。二是搭建公共技術服務平臺,提供企業共享使用的CPU、GPU、TPU、FPGA等高性能計算設備,降低大模型企業設備購置成本。
其次,強化數據流通與跨區域合作,破解語料供給瓶頸。
一是提升數據流通能力。聯合重點央企、市屬國企、數商企業等搭建數據開放平臺,推動高質量數據的彙集、訪問、共享、處理;鼓勵上海市數據機構開放脫敏高質量數據,建設運營數據訓練基地;支持上海市大模型企業建設大模型訓練數據安全屋、預訓練語料庫。二是發揮長三角一體化優勢,強化區域協作破解語料和算力難題。建議將語料和算力跨區域協同納入長三角一體化年度議題,充分發揮長三角地區各省市在數據資源和算力資源上的互補優勢,建立算力跨區域調配與成本收益劃分機制,破解大模型產業發展瓶頸。
此外,開展大模型科技與場景創新,打造標誌性應用場景。
一是設立上海AIGC重大科技專項。圍繞通用模型理論、領域大模型、大模型應用等技術,開展領域大模型和應用場景技術的攻關,以解決當前大模型技術在垂直領域應用關鍵問題。
二是基於“小切口、深應用”打造一批標誌性應用場景。由市經信委牽頭,重點面向三大領域開展大模型應用場景創新。面向製造業:聚焦新材料、電動汽車等行業,圍繞智能研發設計、未來工廠、工業互聯網、自動駕駛等場景開展示範應用;面向社會民生:選擇“一老一小”、未來社區、職業教育、智慧醫療等場景開展示範應用,創建智慧課堂推動普惠教育,打造虛擬心理醫生強化社會心理療愈支持等;面向社會治理:聚焦智慧城市、智慧旅遊、鄉村振興、生態治理等場景,協同利用數字孿生、元宇宙技術等,開展場景創新。