今天起,國產AI可以像人一樣用手機了!一手實測在此
繼Claude發佈Computer Use驚豔全場,就在剛剛,一個國產AI實現了像人一樣使用手機!
而且還不像Claude需要打字提需求,現在手機的“手”是可以稍微去掉一些了,因爲光靠嘴說就可以實現很多功能。
例如給微信朋友圈點贊+評論,現在只需對着手機說一句:
然後啊,AI就“唰唰唰”地自己開始動手:
△本文視頻除提示外,所有操作均由AI執行
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
不難看出,在給這個AI下達命令之後,它自己就可以執行如下步驟:
打開微信 → 搜索人 → 進入對話框 → 點擊頭像 → 點開朋友圈 → 找到一條內容 → 點贊 → 評論。
而中間幾個關鍵且較爲敏感的步驟,AI還會提醒是否還要“繼續執行”,也是避免了一些烏龍的發生。
如此一來啊,我們就可以一定程度地解放雙手,把中間繁瑣的過程都交給AI來處理。
除此之外,像給老闆發微信請假,也是可以用說的:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
可以看到,這個AI不止是簡單的請假,而是曉之以理動之以情地幫我生成了一段文字。
並且內容也稱得上是教科書般的請假了。
那麼這個國產AI到底是什麼來頭?
不賣關子,它正是智譜剛剛上新的功能——AutoGLM,主打一個讓你的手機變成“自動駕駛”模式。
但說到最直觀的感受,那就是火爆已久的生成式AI,已經不再停留在簡單的生成階段,而是真真兒地開始深入到硬件替人做執行和操作。
不過在我們深度體驗一番之後發現,發微信、朋友圈點贊,還僅僅是AutoGLM能力的一隅。
還是先順着微信,AutoGLM還可以對公衆號的文章做總結。
例如我們用語音提個需求:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
從演示中我們也能看到,如果AutoGLM在轉文字時出現了錯誤,我們也是可以手動進行修改。
並且即便不是特別具體的要求,例如“最近三篇文章寫了什麼”這樣比較泛的問題,AutoGLM也是可以hold住的。
但除了微信之外,其實AutoGLM已經深入到了手機上與我們“衣食住行”相關的各個角落。
點外賣,可以用說的
接下來,我們嘗試讓AutoGLM點外賣,看看它是否能夠hold住:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
也是隻需要一句話,AutoGLM就自動在手機上執行了如下的操作:
打開美團APP → 搜索“瑞幸咖啡” → 選擇最近的店鋪 → 搜索“茉莉花香拿鐵” → 點擊“去結算”。
期間,在口味的選擇這個步驟中,也是可以通過語音的方式和AutoGLM溝通。
如此一來,以後點外賣就變成“口頭和AI交流”+“手動支付”一下了。
購物,也是可以用說的
和點外賣類似,現在AutoGLM加持下的手機,也可以用說話的方式來購物。
例如我們想回購一件商品,可以提出這樣的要求:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
AutoGLM在瞭解意圖之後,精準的在歷史訂單裡的“近一個月”範圍內找到了買過的眼鏡,然後用戶只需要操作一下支付即可。
當然,像搜索特定牌子的衣服之類的需求,AutoGLM也是可以輕鬆拿捏。
訂車票、酒店,一句話搞定
在“衣”和“食”之後,我們繼續來測試一下AutoGLM在“住”和“行”方面的能力。
例如在攜程上訂酒店:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
定位、選日期、按評分排序、訂酒店……直到付款前,AutoGLM在操作上可以說是一氣呵成。
再如在12306上訂車票:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
由此可見,手機加持了AutoGLM之後,“衣食住行”的交互方式直接邁進自動駕駛模型。
而且除了剛纔我們展示的功能之外,AutoGLM目前還支持大衆點評、小紅書、高德地圖等APP哦~
不過有一說一,說到Auto這件事兒,智譜除了在手機上發力之外,早在電腦端的網頁上就已經展現出來了。
智譜讓網頁變得Auto的工具,便是它推出的插件——清言。
或許很多小夥伴會說,不會又想說網頁總結、劃詞、寫作助手、翻譯、問答這些功能吧?
確實,清言插件的確包含了這些現在AI插件似乎都應該具備的基本功能,但這僅僅是在清言的“通用模式”。
但如果點開旁邊的“高級模式”,那麼玩法就截然不同了。
例如在小紅書的網站要找某些攻略,我們可以不用再挨個帖子看內容、“貨比三家”的來找了。
只需要在清言插件的高級模式中,給一個提出需求的動作即可,AI會自動幫你篩選並找到最優解。
舉個例子,我們在清言中點擊“站內高級檢索”,並輸入:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
從整個過程來看,在發送需求之後,我們就不需要做任何事情了。
清言也會像AutoGLM一樣,自動執行一系列步驟:
嗯,確實是節省了親自做比較+思考的時間。
而這個“站內高級檢索”若是放在知網這樣的平臺,那麼對學生黨和科研當來說,簡直就是大寫的方便:
同樣的,整個搜索、篩選到最終給出結果的過程中,完全無需人爲干預,清言上演全自動模型。
當然,若是對AI整理的內容還是不夠滿意,清言還提供一種“人機結合”的模式——量子速度。
點擊這個模式之後,就會在網頁各個細分條目後出現一個選擇框,我們可以pick自己重點或更傾向的內容,然後再交給清言做處理:
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
據瞭解,電腦網頁中的這種自動駕駛模式,目前清言已經支持了小紅書、知網和知乎。
那麼接下來的一個問題就是:
從我們實測的所有案例中不難看出,智譜的AutoGLM,其實是把AI從“語言”階段,拉高到了“執行”的層面。
AutoGLM不再僅僅是回答問題的AI,而是可以理解我們的指令,並模擬人類操作各種應用場景。
正如我們展示的它能幫我們讀網頁、在電商平臺購物、訂酒店、點贊朋友圈、發微信等等,讓AI變成助手這件事兒真正能付諸於行動。
究其背後的技術核心,主要就是AutoGLM的智能體能力了。
與傳統的只會簡單API調用的AI不同,AutoGLM能理解屏幕上的信息,自動規劃任務,並在執行過程中根據實際情況自我判斷和調整。
用戶只需通過簡單的語言指令,就可以讓它完成複雜的操作,這種能力背後的支撐來自於它強大的任務規劃和執行機制。
這就與Apple Intelligence等市面上主流的傳統AI智能體拉開了差距。
(PS:昨天蘋果剛發佈的iOS第二波AI能力,依舊停留在生成階段。)
再具體到更細節的技術,AutoGLM背後的自進化學習框架也非常值得一提。
智譜爲此開發了一個名爲WEBRL的在線強化學習系統,專門來解決訓練任務不足、反饋信號稀少等問題。
通過加入自適應學習策略,AutoGLM能夠在使用過程中不斷進化,持續提高自己的表現和效率。
也正是這種不斷自我改進的能力,使得AutoGLM變得越來越聰明,越來越能貼近人類的需求。
有一說一,僅僅是通過APP可以實現這一點上,智譜的這步棋下得稱得上是較爲超前的。
畢竟在前兩天Claude發佈Computer Use的時候,很多人就表示AI競賽已經來到了新賽季。
這也與當下大模型技術發展的趨勢相契合——
一言蔽之,就是成熟的AI,應該學習自己做事兒了。
早在去年開始,大模型的圈子裡就開始盛行大語言模型(LLM)的“進化體”——大型動作模型(LAM,Large Action Model)。
其核心也是希望能夠擺脫目前大模型只能做生成任務的禁錮,能夠借各種AI硬件作爲載體,向執行層面去過渡。
無獨有偶,在AI PC和AI手機圈子裡,各大玩家也是把眼光都聚焦到了這種新範式,包括聯想、榮耀等等。
其模式也是通過文字或語音,把任務交給端側原生的AI,讓它們能夠自行處理任務。
而且不僅是端側的AI硬件廠商在跟進,就連底層的算力玩家也在做着適配。
例如前兩天高通就爲此宣佈直接把桌面級的CPU塞進了手機裡面。
不過僅僅是通過一個軟件,更是隻通過語音就能讓AI在手機上實現像人一樣全自動地操作,智譜可以說是在這個賽季玩家中的首個。
而作爲國內少數能夠跟OpenAI全面對標的大模型玩家,智譜能夠做到這點其實也並不意外。
從早期的技術路線的發展來看,智譜面對OpenAI這個毋庸置疑的全球大模型頭部選手,它的選擇是做一個“追趕者”。
從純文本對話,到文生圖、代碼、搜索、視覺,再到今年的文生視頻、超擬人語音等多模態。
雖然從各種產品和模態上幾乎可以不落的和OpenAI逐一連線,但其實智譜從起點來看,在最根兒上的技術本質卻截然不同——
OpenAI的GPT系列則主要使用自迴歸模型,這種模型在生成文本時是單向的,即它只能基於之前的詞來預測下一個詞。
但這種單向性可能限制了模型在某些自然語言理解(NLU)任務中的表現,因爲它無法充分捕捉上下文之間的依賴關係。
而智譜的GLM採用了自迴歸填空(autoregressive blank infilling)作爲主要的預訓練目標。這種方法允許模型在生成文本時同時考慮上下文信息,從而增強對語言結構的理解和生成能力。
不僅如此,在生態方面,二者也有明顯的不同。
例如衆所周知的,OpenAI一直在堅持閉源的形式;而智譜則是閉源和開源兩頭抓,截至目前,其開源的模型如下表所示:
而不僅是這一次AutoGLM做到了搶先,智譜在八月也搶先OpenAI把類似4o的AI視頻通話上線到了清言APP中;並且就在剛剛,其背後的GLM-4-Voice也正式開源。
視頻地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
由此,若是把上述的各個節點連起來,放到時間的X軸裡,智譜的技術發展路線就一目瞭然了——正在一步一步邁近AGI:
若是按照自動駕駛領域“L幾”的說法,在智譜看來,邁向AGI,一共分爲L1-L5:
其中,L1語言能力、L2邏輯與思維能力和L3工具能力,是目前業內比較有共識的三個AI級別。
但在在L4和L5上,智譜和OpenAI還有一些區別。
在智譜看來,L4級人工智能意味着AI可以實現自我學習、自我反思和自我改進。
L5則意味着人工智能全面超越人類,具備探究科學規律、世界起源等終極問題的能力。
但人工智能多大程度上能夠做到像人腦一樣,甚至超越它呢?
對於這個問題,智譜認爲我們大致也將在未來相當長的一段時間處於42%這個階段。
(42 這個百分比靈感來自《銀河系漫遊指南》,the journey to AGI is now 42% completed,是小說里名叫“深思”(Deep Thought)的超級電腦,經過750萬年的計算,給出的關於生命、宇宙以及任何事情的終極答案。)
大腦是一個非常複雜的系統,包括聽覺、視覺、味覺、語言等多模態的感知與理解能力,有短期和長期記憶能力,深度思考和推理能力,以及情感和想象力。
另外,作爲人身體的指揮器官,大腦還懂得調動身體的各個部分協同運轉,使用各種工具。
正如下面這張圖上顯示的,有些能力今天的大模型已經解鎖,比如文本,視覺,聲音,比如一定的邏輯和使用工具的能力,有些模態的能力樹還沒有點亮,這些也是智譜未來會一直爲之努力的方向。
數年前智譜CEO張鵬就曾說過這麼一句話:
現如今回頭來看,對於當年“能跑多遠”的期待,已然是有了明確的結果——
做了,追了,智譜已經開始跑在了OpenAI的前面。
最後,附上這次智譜新功能的入口。
AutoGLM瀏覽器插件地址:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzw
AutoGLM安卓內測地址:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh