遊族網絡的AI“生意經”
本報記者 許心怡 吳可仲 上海報道
AIGC(人工智能生成內容)浪潮洶涌,衆多內容生產商、社交平臺搶灘佈局。
7月6日,遊族網絡(002174.SZ)CEO陳芳表示,該公司將持續進行語料庫的建設,通過自行開發與外部合作並行的方式,將優質語料在IP塑造、音視頻生成、用戶體驗提升等文化娛樂產業各業務板塊進行全面應用。
遊族網絡相關人士對《中國經營報》記者表示,語料庫建設是一個系統性工程,需要精心規劃和多步驟實施。目前各家公司都在逐步開展自己的語料庫構建活動。遊族網絡方面希望建立行業標準的語料收集、清洗和標註流程,並在此過程中關注保護玩家隱私和數據安全,加強版權意識,尊重原創內容。
構建語料庫
“作爲推動AI發展的關鍵力量,我們也將持續進行語料庫的建設。”7月6日,在2024世界人工智能大會暨人工智能全球治理高級別會議上,陳芳出席語料主題論壇時說道。
遊族網絡方面表示,高質量語料是人工智能突破式發展的核心因素之一,以遊戲爲首的互動娛樂語料具有極高的經濟和社會價值。一是由於全球有幾十億人口活躍數據,龐大的用戶基數爲優質遊戲語料的培植提供了沃土;二是遊戲涵蓋多種類型,通過不同遊戲玩家的不同反應,能爲AI提供多樣化的學習材料。
遊族網絡方面還介紹,在IP塑造、價值觀正向引導上,遊戲語料也佔據着天然的優勢。遊戲研發人員能直觀地通過數據獲取用戶對不同IP角色的喜好程度,並進行IP要素拆解分析,針對不同羣體的喜好進行IP定製。
陳芳談到,遊族網絡接下來將着力構建語料庫:“(我們將)通過自行開發與外部合作並行的方式,將優質語料在IP塑造、音視頻生成、用戶體驗提升等文化娛樂產業各業務板塊進行全面應用,將優質的中國文化以更易被主動選擇的方式向世界傳遞。”
如果說大模型是引擎,語料就是推動引擎運作的“燃料”。AI模型對高質量語料需求巨大,人們需要爲其供給大量的數據,保證持續訓練現有AI模型以及開發更強大的模型。
今年3月,美國社交平臺Reddit在紐約證券交易所上市,開盤首日收漲48.35%。據公開數據,Reddit每日活躍用戶達到7310萬人,2023年的發帖量大約爲4.69億條,評論和互動量達到28.4億條。該公司宣佈與谷歌達成合作,授權其使用Reddit的數據訓練AI模型。Reddit計劃在2024年通過這種方式獲得約6640萬美元的收入。
當月,谷歌因未經許可使用出版商內容訓練聊天機器人,在法國被罰款2.5億歐元。
今年4月,德國圖片共享平臺EyeEm宣佈授權AI公司使用社區中的圖片用於訓練AI模型。EyeEm通過電子郵件告知用戶相關條款,並向不願意將照片用於AI訓練的用戶提供30天時間刪除內容。EyeEm在與Instagram的競爭中落敗,於去年被西班牙公司Freepik收購。被收購時,EyeEm的照片庫包含1.6億張圖片和近15萬名用戶。
並非單純數據抓取
遊族網絡相關負責人對記者表示,遊戲研發中會需要用到多種類型的語料,比如代碼輔助、美術設計、用戶分析、本地化、內部知識庫、開發日誌、技術文檔、測試文檔等,還有遊戲相關的特定語料,例如角色臺詞、遊戲背景、角色設定、故事大綱、世界觀等信息。
“用戶生成內容(UGC)是大模型的主要語料來源之一。它們來自各個社區、論壇、渠道的評論區,既可以來自同類型產品,也可以來自自己產品的市場測試和運營結果。”該人士表示,網民、玩家們的表達是語料的主要來源之一。此外,語音、美術設計、音樂、視頻等也可以形成多模態語料庫,代碼則主要來自於公司項目工程。
儘管互聯網上有着海量數據,但是符合大模型訓練的卻有一定標準。
上述人士介紹,對於遊戲研發來說,高質量的語料應具備覆蓋性、準確性、多樣性:語料應涵蓋遊戲相關的各個方面,包括但不限於遊戲劇情、角色對話、用戶評論、遊戲指南、策略討論;這些語料應正確傳遞信息,避免錯誤信息誤導AI訓練效果;多樣性則是指語料能覆蓋多種類型的遊戲種類,以及不同風格和體裁的文本,來訓練AI的通用性和適應性。
他補充道,本地化、交互性、情感豐富性的高質量語料應能表達豐富的情感和語氣,使AI能夠理解和生成具有情感色彩的文本,增強遊戲的沉浸感。
“當前語料的覆蓋性、準確度、時效性是否符合要求,取決於以下幾個因素:數據收集的廣度和深度、數據是否經過清洗和預處理、數據更新頻率、版權是否合規。目前在這些方面,語料質量依然存在很大上升空間。”遊族網絡相關負責人表示。
語料庫的構建也並非單純的數據抓取。該負責人告訴記者:“語料庫建設是一個系統性工程,需要精心規劃和多步驟實施,包括需求分析、數據收集、版權審查、數據清洗、數據標註、數據增強、構建知識庫、技術選型、模型訓練與測試、持續更新與維護等。”
他表示,目前各家公司都在逐步開展自己的語料庫構建活動。遊族網絡方面認爲,構建語料庫,首先要設立標準化流程。遊族網絡方面希望建立行業標準的語料收集、清洗和標註流程,提高語料庫建設的效率和質量,“而不是各家搭建,這樣才能更快實現更符合遊戲行業垂向的語料庫”。
上述人士還表示,數據安全也很重要,收集數據過程中需要保護玩家隱私和數據安全,遵守相關法律法規的同時,加強版權意識,確保語料庫建設過程中尊重原創內容。
打磨AI之劍
7月1日,遊族網絡方面透露,其與火山引擎達成合作。具體合作內容包括:將火山引擎在雲計算、大數據、數據庫等方向的技術優勢,與遊族網絡在遊戲運維領域的經驗結合,完成大數據存算分離、數據湖架構、高可靠數據庫等架構和技術上的升級迭代。
此外,遊族網絡和火山引擎將以雲計算和AI大模型技術爲底座,依託火山引擎的豆包大模型,爲玩家提供更加沉浸式的AI交互體驗。
在上述論壇上,陳芳介紹了遊族網絡在AI算力、AI軟硬件基建、AI在產業層面應用、人才培養、行業責任等方面的佈局。例如,在AI軟硬件基礎設施方面,遊族網絡參與了由上海自主智能無人系統科學中心發起的“自主智能無人系統大模型計劃”,重點推動人工智能在各方面的場景應用,爲“數智化虛實融合”提供了技術支撐。
據遊族網絡方面介紹,其在2017年開始佈局AI技術,於去年6月成立AI創新院,目前已經將AI技術運用於研發和發行環節。
關於在遊戲發行環節對AI技術的引用,遊族網絡方面向記者介紹:“由AI創新院研發的廣告投放引擎,在自研大數據平臺的支持下,利用AI驅動沉澱優質廣告投放策略,提高素材歸因能力和定向能力,以確保最佳的廣告投放效果;同時,藉助AIGC快速進行美術風格的迭代嘗試,通過廣告投放效果及時瞭解用戶偏好,我們進一步提升了獲客能力。”
據遊族網絡2023年財報披露,在遊戲研發環節,其將AI應用於美術資產生產、本地化多語言版本製作、數據查詢、質量管理、NPC(非玩家角色)等多個領域,其中AI自有渲染管線能同時支持前向渲染管線和延遲渲染管線,可以大幅提升遊戲品質,目前已經接入《少年西遊記2》《Vice Nation》《少年三國志3》等項目;在基礎架構保障方面,目前AI創新院已支持200多個平臺項目的運維工作。
今年6月,遊族網絡推出AI玩伴“代號小遊醬”。據遊族網絡方面介紹,“代號小遊醬”是其面向玩家的首款AI產品,可以爲玩家提供客服答疑和遊戲攻略,還能在陪玩與傾聽中提供豐富的情緒價值,併兼顧養成與輔助等系列陪伴,可以支持個性化定製。
遊族網絡方面表示,未來將讓AI不僅服務於遊戲生產環節,更服務於玩家的遊戲樂趣,使AI更好玩。
(編輯:董曙光 審覈:吳可仲 校對:顏京寧)