2025,AI發展的10個預判,影響每個人
過去這一年,AI行業經過飛速的發展,但大多都是在底層和公司、產品層面。接下來的2025,AI將以更快的速度改變各個行業,而且都會與你我密切相關。
———— / BEGIN / ————
接下來這一年,AI將以更快的速度深刻改變各行各業,這個鉅變跟每個人息息相關,希望你認真看完。
智能體,大爆發
在“百度世界2024”大會上,李彥宏強調“智能體是AI應用的最主流形態,即將迎來它的爆發點。”並將做智能體類比爲PC時代做網站、或是移動時代做自媒體賬號。
在新的一年中,智能體技術從 “能力積累期” 邁向 “應用爆發期”的態勢將更加明顯。
目前來看,智能體技術已經逐步進入全面商業化應用階段。比如在金融領域,已被應用於支付結算、風險控制;在科研教育中,能助力實驗設計和個性化教學;在軟件開發過程中,實現代碼生成和程序測試等等。
這些多場景需求和應用,也反過來促使智能體技術能力不斷進化,呈現出越來越明顯的專業化、自動化、協作化特徵,逐步實現從簡單任務執行到複雜環境精準決策、從單體運行到多智能體協同到生態協作、從通用服務深入到垂直領域應對複雜場景的發展和過渡。
大模型最後一戰:多模態
2025年還將是多模態大模型爭奪戰的關鍵一年,各企業大廠會繼續投入大量資源比拼研發。
比如去年年底谷歌推出的Gemini 2.0、OpenAI推出的Sora,以及更早時候智譜AI推出的CogVideoX等,都力求在這一領域取得優勢。
谷歌的 Gemini 2.0, 在技術架構上採用了最新的算法,對神經網絡結構進行了優化,不僅支持原生圖像和多語言音頻輸出,還能夠原生調用工具,爲用戶提供了更加便捷、高效的交互體驗。
Sora同樣具備頂級的多模態語言理解能力,可從文本、圖像或視頻生成高質量視頻,並能模擬真實世界的物理狀態。
國內的 CogVideoX 也有自己的優勢,能將文本、時間、空間三維一體融合,通過高效的三維變分自編碼器結構,和端到端的視頻理解模型,實現了快速生成高質量視頻的能力。
這些模型的出現,在豐富用戶選擇的同時,也加劇了這一領域的白熱化競爭,最終誰能留在牌桌,既考驗市場容量,也考驗各自的本事。
文生視頻,AI巨頭的必贏之戰
自AI浪潮以來,文生視頻一直都屬於“熱點板塊”,隨着技術的不斷突破,2025年的文生視頻大戰,必定會更加激烈。除了上面提到的頂級存在Sora外,還有谷歌新發布的Vo2,快手的可靈、minimax的海螺AI,都會是這場混戰的重要參與者。
谷歌的Veo 2不僅能夠根據文本或圖像提示生成高質量視頻,還能理解廣角、特寫等鏡頭控制指令,模擬現實世界的物理現象和人類表情,生成高達4K分辨率的高清晰視頻。
快手的可靈AI和minimax的海螺AI也在視頻生成領域取得了顯著進展,具備強大的物理模擬和概念組合能力,在視頻續寫、運鏡控制等方面都有很大突破。
隨着技術競爭的加劇和應用範圍的不斷擴大,文生視頻技術將極大地推動視頻創作的變革,既降低了進入門檻,又提高了創作效率,爲未來的內容產業帶來新的發展機遇。
AI具備長期記憶
在記憶分層管理上,AI 系統發展出了短期工作記憶、中期擴展記憶和長期知識庫儲存等不同層次的記憶結構。
短期工作記憶用於臨時存儲當前任務相關的信息,確保 AI 在處理任務時能夠快速獲取所需數據;
中期擴展記憶則可以對一段時間內的信息進行整合和存儲,爲決策提供更全面的依據;
長期知識庫儲存則是 AI 的知識寶庫,存儲着大量的歷史知識和經驗,使 AI 能夠不斷學習和積累知識,實現持續進化。
在未來的AI發展中,具備長期記憶的能力將變得越來越重要。
當今的AI技術,可以通過檢索增強和外部存儲手段,有效擴展自身的記憶容量;同時,不斷髮展的動態總結和分層管理能力,也讓AI長期記憶有了關鍵技術支撐。
未來,AI 的長期記憶功能,將越來越貼近人類思維的特性,其記憶系統從 “單一存儲” 向 “分佈式認知架構” 演變,記憶管理重點轉向“智能篩選與整合”,並在 “記憶” 與 “遺忘”間找到合理的平衡,將成爲AI發展的新趨勢。
量子計算,引爆算力革命
未來,量子計算的發展將爲大模型帶來了前所未有的機遇,甚至會引發新的算力革命。去年年底,谷歌發佈的量子芯片willow就是這一進程中的里程碑,讓我們看到了算力革命的新曙光。
雖然谷歌尚未完全公開細節,但量子芯片的出現預示着算力將得到巨大提升,已是無可爭辯的事實。
量子計算基於量子比特(qubit)進行運算,相較於傳統計算機的二進制比特,量子比特能夠同時表示多個狀態,這使得量子計算機在處理複雜問題時具有指數級的計算優勢。這一優勢,將在大模型的訓練和推理過程中,起到至關重要的作用。
衆所周知,傳統的大模型訓練需要耗費大量的時間和計算資源,而量子計算卻能憑藉強大的算力優勢,大大縮短訓練時間,提高模型的迭代速度,因此也就有了非常廣泛的應用需求。
比如,在藥物研發領域,大模型可以利用量子計算的算力快速分析分子結構和藥物活性之間的關係,加速新藥研發進程;在氣候模擬方面,能夠更加精準地模擬氣候變化趨勢,爲應對氣候變化提供科學依據。
儘管量子計算仍面臨一些技術挑戰,但K哥相信,2025年這一領域會有持續性突破。
端側模型,快速崛起
隨着移動設備和物聯網設備的普及,能夠滿足智能設備需求、提供更快速高效AI服務的端側模型,將會在2025年進一步崛起。
當前,端側部署的技術路線發生了顯著變化,已經從過去“壓縮大模型” 逐漸向 “優化小模型”的趨勢轉變。這一轉變是基於對設備資源的合理利用和性能需求的綜合考慮,以 Gemma 2 2B 爲例,它把通用端側模型的參數規模上限提升到了2.6B,並通過一系列技術創新,讓該模型在性能上表現得非常高效。
這一變化將使端側模型在資源受限的設備上,也能發揮出色的作用。
比如:在智能手機領域,端側模型可以實現實時圖像識別、語音助手等功能,而無需將數據傳輸到雲端進行處理,大大提高了響應速度和用戶隱私保護;在智能家居傳感器、可穿戴設備等物聯網設備中,端側模型能夠實現本地數據處理和智能決策,降低設備對網絡的依賴,提高設備的自主性和穩定性。
端側模型的崛起,將推動智能設備的智能化水平提升到一個新的高度,也必然會爲用戶帶來更便捷、更高效的智能體驗。
具身智能,大發展
具身智能主打AI與物理世界的互動和融合,從而更好地理解和操控現實世界。
這一需求也將在2025年進一步顯現。
從目前技術突破來看,具身智能在本體控制、靈巧手、觸覺傳感和表情模仿等多個維度,都取得了不同程度的進展。
比如,本體控制技術的提升使機器人能夠更加穩定、精準地執行各種動作;靈巧手的發展讓機器人能夠完成更加精細的操作,如抓取、操作工具等;觸覺傳感技術使機器人能夠感知外界物體的形狀、質地和力度,提高了其與環境交互的安全性和準確性等等。
具身智能不僅是技術的提升,更是人機交互方式的革新。AI系統將不再侷限於屏幕前的靜態交互,而是能夠通過機器人或其他智能設備與人類進行更加自然、深入的互動。隨着具身智能的不斷普及和推廣,將爲教育、醫療、服務等行業帶來新的發展機遇。
人形機器人、空間智能,開始商用
人形機器人和空間智能作爲大模型應用的重要領域,也將在2025年取得快速發展,二者相互關聯、相互促進。
人形機器人融合了形態結構與認知交互能力,旨在實現類人化的感知、決策與動作能力。在感知方面,人形機器人配備了多種傳感器,如視覺傳感器、聽覺傳感器、觸覺傳感器等,能夠實時感知周圍環境的信息。
依靠大模型,機器人可以對這些感知信息進行快速處理和理解,從而做出準確的決策。
在動作執行方面,隨着機械結構和驅動系統不斷優化,人形機器人可以做出行走、奔跑、抓取物體等更靈活更自然的動作。
空間智能則致力於通過多維感知和理解構建三維世界模型,實現空間定位、場景理解與環境交互。3D數據獲取和算法,是決定空間智能水平的關鍵因素。
這些問題也會在未來獲得更多的突破。
比如,在3D 數據獲取方面,隨着激光雷達、深度相機等設備性能的提升,空間智能將能夠獲取更準確、豐富的 3D 數據。在算法創新方面,ReKep 框架和關係關鍵點約束等技術的應用,爲空間智能提供了強大的支持。
AI自循環:合成數據
AI系統通過自身生成的數據來訓練和改進自己,而不需要依賴外部數據源,這一過程被稱爲AI自循環。在這個過程中,最關鍵的就是數據的合成,這些合成數據可以彌補現實數據的不足,爲大模型訓練提供更多樣化的數據來源。在新的一年,AI合成數據技術同樣將變得愈發重要。
目前已經有很多大廠和機構投入到這一領域的研究,比如英偉達、World Labs 等,都取得了不同程度的進展。但同時我們也要明白,數據量的增加只是基礎,數據質量和數據結構的優化纔是關鍵。
未來合成數據的側重點,還是要從擴充數據轉向創造知識,並通過系統化方法,提升數據訓練數據的質量。
大模型“第一性原理”,仍然適用
隨着大模型參數數量的增加,其性能也會相應提升。這個被稱爲大模型“第一性原理”的Scaling Law仍然適用,甚至可以據此解決幻覺問題。
比如,在內容生成領域,通過增加高質量數據,大模型能夠更好地理解語言的語義和邏輯關係,從而生成更加準確合理的文本,大大減少生成內容中不靠譜的幻覺現象。
當然,Scaling Law 的應用也面臨計算資源、數據質量等一些因素的制約。但這些問題並非不能克服,而是可以通過創新的算法設計、高效的計算架構和嚴格的數據篩選與預處理,來加以解決。
作者:Mr.K 編輯:Emma
來源微信公衆號:技術領導力
題圖來自Unsplash,基於CC0協議
品牌推廣| 內容撰寫|廣告投放|培訓合作