工信部主導首次大模型標準評測 僅360、百度、騰訊、阿里過關
大陸首次官方「大模型標準符合性評測」23日公佈結果,首批僅百度、騰訊、阿里和360集團等4家通過。圖/美聯社
大陸首次官方「大模型標準符合性評測」23日公佈結果,首批僅百度、騰訊、阿里和360集團等4家通過。
新浪財經報導,這項測試由大陸工信部中國電子技術標準化研究院發起,吸收覆蓋大模型產業全鏈路數十家頭部單位意見,重點完成大語言模型理解、生成、邏輯等核心能力的38項具體評測維度,以充分檢驗大陸大模型標準符合性水準,引領人工智慧產業健康有序發展。
首批通過測試的四家企業,除了網路三巨頭BAT之外,還有網安大廠360。這四家投入AI大模型起步早,同時技術和大數據等資源豐富,成爲勝出的關鍵。
其中,百度是大陸AI領域標準的主導力量,多次參與國家人工智慧技術標準體系設計和討論,也是標準核心貢獻單位之一,起草人工智慧預訓練大模型系列國家標準。百度今年3月發表「文心一言」大模型,並在8月31日開放全球用戶使用。目前,百度文心大模型日均調用量達數千萬次,每月服務企業超過1萬家。
本次通過評測的首批大模型中,阿里「通義千問」是唯一的開源模型,其性能表現及安全性得到了大範圍的公開檢驗。12月1日開源後,通義千問72B在10個權威基準評測中創下開源模型最優成績,併力壓Llama2登頂海外最具權威性的HuggingFace排行榜,爲業界公認性能超強開源大模型。
騰訊混元大模型也率先這次測試。此外,騰訊雲還以提案牽頭方身份啓動「人工智慧模型即服務(MaaS)功能要求」的討論與編制,推動MaaS領域標準化。
360是大陸較早佈局人工智慧大模型的企業,自研千億規模通用大模型「360智腦」核心能力位居大陸第一梯隊,並憑藉360在安全領域的積累和優勢,成爲大陸首個原生安全的大模型。