國家首次系統謀劃 數據標註產業探索發展“最優解”
■ 中國工業報 耿鵬飛
自動駕駛、低空經濟、智能製造、智慧醫療等領域都離不開數據標註。據測算,2023年我國數據標註產業規模達800億元左右。
爲促進數據標註產業高質量發展,1月13日,國家發展改革委、國家數據局、財政部、人力資源和社會保障部四部門聯合發佈《關於促進數據標註產業高質量發展的實施意見》(以下簡稱《實施意見》)。《實施意見》是國家層面首次對數據標註這一新興產業進行系統謀劃。
《實施意見》提出,到2027年,數據標註產業專業化、智能化及科技創新能力水平顯著提升,產業規模大幅躍升,年均複合增長率超過20%,培育一批具有影響力的科技型數據標註企業,打造一批產學研用聯動的創新載體,建設一批成效明顯、特色鮮明的數據標註基地。
賦能AI與數據要素市場發展
隨着人工智能從通用領域向專業領域演進,數據標註對專業性、技術性的人才需求日益增長,數據標註產業也從勞動密集型逐步向知識密集型轉變。
簡單理解,數據標註就是給文本、語音、圖片、視頻等各種各樣的數據“打標籤”,將原始數據轉化爲機器學習算法可理解形式的過程。
《實施意見》中描述數據標註產業是對數據進行篩選、清洗、分類、註釋、標記和質量檢驗等加工處理的新興產業。培育壯大數據標註產業對於提升數據供給質量,推動人工智能創新發展具有重要的支撐作用。
清華大學計算社會科學與國家治理實驗室執行主任孟慶國在《實施意見》解讀一文中指出,高質量中文數據成爲制約我國基礎大模型能力的瓶頸。數據標註能爲機器提供高質量的數據,賦能機器學習、深度學習等人工智能算法的訓練,從而實現數據價值轉化。隨着人工智能從通用領域向專業領域演進,數據標註對專業性、技術性的人才需求日益增長,數據標註產業也從勞動密集型,逐步向知識密集型轉變。
中關村大數據產業聯盟副秘書長顏陽向中國工業報分析,《實施意見》的發佈標誌着我國數據標註產業邁入了一個高質量發展的新紀元。一方面,隨着人工智能技術的迅猛發展,數據標註產業作爲核心支撐,其需求日益增加。高質量的數據標註能大幅提升AI模型的效能與精確度,加速人工智能技術在多元領域的廣泛應用。另一方面,《實施意見》的發佈也是對國家加快數字經濟發展戰略以及數據要素市場的生態發展的有力響應,旨在通過壯大數據標註產業,提升數據供給質量,爲人工智能的創新發展奠定堅實基礎。
顏陽分析說,《實施意見》不僅旨在通過優化產業環境、提高標註質量與效率,推動我國數據標註產業向規模化、標準化、集約化發展,還致力於增強我國在全球人工智能領域的國際競爭力,爲數字經濟的高質量發展增添新活力。同時,通過構建數據標註創新平臺和實驗室等尖端創新載體,加強基礎科研與前沿技術探索,進一步促進了產業鏈上下游的協同合作。
中國電信研究院大數據與人工智能所副總工李馨遲向中國工業報分析表示,《實施意見》爲數據標註行業發展提供了全面指導,指明瞭未來數據標註行業的發展方向與目標。
從13個具體方面進行全面謀劃
“以國家數據標註基地試點爲抓手,圍繞技術創新、行業賦能、生態培育、標註應用、人才就業和安全發展等六個方面做好試點,探索推進數據標註產業發展的最優路徑。”孟慶國在解讀文章中這樣說道。
本次《實施意見》從13個具體方面對培育壯大數據標註產業進行全面謀劃,特別突出需求牽引和創新驅動,培育一批深耕行業的數據標註瞪羚企業、獨角獸企業。
在深化需求牽引方面,《實施意見》首次提出釋放公共數據標註需求,依法依規有序推動公共數據標註與開發利用,在現代農業、智能製造、信息服務等重點領域發掘公共數據標註需求。在增強創新驅動方面,《實施意見》中提出,開展關鍵技術攻關、健全數據標準、打造高水平創新載體。其中重點提到,支持軟硬一體、自主可控的數據標註領域關鍵設備研發;聚焦重點行業領域,加快制定相關行業數據標註標準,促進協同創新;鼓勵數據標註相關企業和科研機構等參與開源社區建設,推動創新資源共建共享。
李馨遲向中國工業報分析說道,數據標註作爲AI領域的伴生行業之一,主要存在三方面問題:
一是行業標準不統一。不同行業數據特性不同,針對標註人員素質或工具能力的需求也不同。當前,各行業針對業內數據標註方式、標註行爲等未做出明確要求,導致數據標註結果的不穩定性、難以評估。《實施意見》中提到,建立數據標註標準體系框架,制定數據標註技術、質量、能力等國家標準。聚焦重點行業領域,加快制定相關行業數據標註標準,促進協同創新。
二是商業模式不完善。當前數據標註仍然爲勞動密集型行業,依賴於大量人員標註,盈利方式較爲單一,且數據價值難以衡量,導致數據標註行業商業模式不完善。
三是數據安全難保障。當前,AI應用公司通常是將數據提供給標註人員進行標註,部分數據中仍然可能存在用戶、企業等敏感信息,這導致存在數據隱私泄露風險。《實施意見》中提到,加強數據標註隱私保護、人工智能對齊、安全評估能力建設。
作爲央企科技創新、人工智能產業通用數據集的重要鏈主單位,“中國電信應當依託自身資源優勢加快數據標註核心技術創新,並加強行業內部夥伴合作,協同產業鏈上下游開展落地應用。同時,建立完善的數據標註人才培養機制與晉升體系,爲標註產業長期發展夯實基礎。”李馨遲說道。
據瞭解,2024年5月,我國已確定成都、瀋陽、合肥、長沙、海口、保定、大同7個城市承擔數據標註基地建設任務。
“以國家數據標註基地試點爲抓手,圍繞技術創新、行業賦能、生態培育、標註應用、人才就業和安全發展等六個方面做好試點,探索推進數據標註產業發展的最優路徑。”孟慶國在解讀文章中這樣說道。
培育數據標註產業發展新生態
顏陽指出,數據標註行業面臨數據標註標準缺失、專業人才匱乏、標註效率低下及數據安全風險等多重挑戰。尤其是中小型標註企業,在資源和技術上處於劣勢,難以與大型企業抗衡。
《實施意見》中提到,形成相對完善的數據標註產業生態,構建創新要素聚集、產業鏈上下游聯動、區域協同發展的新格局。
“然而在調研中發現,生態鏈上的廠商受制於總包單位的依賴關係,常常由於回款週期的影響,舉步維艱。”顏陽向中國工業報特別強調並說道,尤其是回款週期的執行與定價合理性問題。
數據標註行業因涉及衆多項目合作,回款週期的執行情況對企業的現金流和運營效率有着直接影響。當前,許多標註企業面臨項目完成後的長回款週期,導致資金流動緊張,阻礙了企業的正常運營與擴張。顏陽分析說,《實施意見》強調了產業鏈上下游的協同發展,旨在暢通數據採集、標註到人工智能應用的各個環節。這一政策導向顯示出對回款週期執行問題的關注,預示着未來或將出臺更多具體措施以保障標註企業的合法權益。
在顏陽看來,數據標註行業的定價機制尚不成熟,企業間定價差異顯著,加劇了市場競爭,使得部分弱勢企業難以獲取合理利潤。據行業調研,衆多標註企業反應當前定價機制未能充分反映其勞動強度和技術含量,導致利潤空間受限。《實施意見》提出培育具有影響力的科技型數據標註企業,推動產業規模化、標準化、集約化發展。這表明政策層面對定價機制合理性的重視,未來可能通過政策引導和行業標準制定,促進定價機制的合理化和規範化。
顏陽指出,數據標註行業面臨數據標註標準缺失、專業人才匱乏、標註效率低下及數據安全風險等多重挑戰。尤其是中小型標註企業,在資源和技術上處於劣勢,難以與大型企業抗衡。《實施意見》明確支持數據標註中小企業與人力資源、金融服務、合規諮詢等第三方機構精準對接,助力企業快速發展。這一政策體現了對弱勢標註企業的關懷,預示着未來將通過政策扶持和資源對接,幫助中小型標註企業提升競爭力和生存能力。
責編:左宗鑫
編輯:孫菱藝(實習生)