支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物
智東西作者 陳駿達編輯 漠影
最近幾天,支付寶App中悄然出現了一項新的AI應用——“探一下”。在“掃一掃”頁面下方切換至“探一下”就能體驗。
與傳統的識物、搜題等視覺搜索應用不同,“探一下”的核心亮點爲探索。識圖辨物只是開始,在此基礎上,有探知識、探靈感、探文本等能力板塊。
從視覺搜索到智能推薦信息,“探一下”可成爲一本隨身的“視覺百科全書”。逛展時,打開“探一下”對準畫作,背後的故事、歷史背景、藝術風格都一覽無餘。踏青時,打開“探一下”對準花朵,不僅能識別出名稱、科屬,還有文化、園藝的相關知識。
“探一下”也可以識別同款商品、給出藥物使用指南,或是翻譯外文菜單,並鏈接到支付寶丰富的商業生態,提供用車、醫療等服務,使用場景很廣泛。
當切換至探靈感功能時,它可以根據場景靈活配文,可幽默、可治癒,在寵物、辦公等場景,還會有“讀心”、“卷王”等定製濾鏡,適合想曬圖但不知道怎麼寫文案的人。
這些實用、有趣的功能背後,其實是視覺搜索產品在GenAI(生成式AI)時代範式轉變的縮影,告別過去的傳統判別式方案,多模態大模型驅動的AI視覺搜索方案正逐漸走向規模化應用。
在海外,Google Lens這一爆款視覺搜索產品,已憑藉GenAI成爲谷歌增長最快的查詢類型之一,每月視覺搜索調用量超200億次。依託於掃一掃的用戶羣體、支付寶的龐大商業生態圈以及螞蟻的技術積累,“探一下”會否成爲國內對標乃至超越Google Lens的現象級產品呢?
一、視覺搜索賽道火熱,理解分析能力亟待突破
過去20多年中,傳統的文字搜索引擎已成爲了搜索的標準形態。不過近幾年來,原本作爲文字搜索補充的視覺搜索已經逐漸走到臺前。2022年,谷歌開發的視覺搜索應用Google Lens每月執行的視覺搜索任務已超過120億次,2024年這一數字已達200億次,並持續快速增長。
從用戶角度來看,視覺搜索能提供超越文字限制的直觀搜索體驗,還能幫助用戶發現更多相關信息,從而激發新的創意與靈感。在傳統文字搜索增長進入穩定期後,視覺成爲衆多互聯網科技企業發力的重點之一。
從商業價值的角度來看,視覺搜索能在電商、社交媒體等領域提供全新的體驗,成爲連接用戶與商業服務的重要橋樑,催生新的商業模式與價值。國內與國際的淘寶、亞馬遜等電商平臺紛紛推出相關服務,正是出於這一考量。
然而,在中國,現象級的視覺搜索產品尚未出現。許多廠商的視覺搜索基於AI1.0時代的判別式基礎視覺算法,依託大量數據,專注於某一垂直領域,如搜題、識花、購物等,未能實現破圈。
即便是具備“識萬物”能力的產品,也大多停留在了“識你所見”的層面,並且在複雜場景上的表現並不理想。當用戶需要了解圖片背後的更多信息時,仍需鏈接到搜索引擎的結果,理解分析能力成爲上一代視覺搜索的明顯短板,亟待突破。
二、從判別到生成,GenAI重新定義視覺搜索
互聯網誕生以來,搜索的形態就處於不斷流變的過程中。以Google爲代表的傳統搜索通過匹配關鍵詞來獲取信息,其核心是基於文字的資訊檢索。
隨着深度學習浪潮的開啓,視覺搜索應運而生,以Google Lens早期版本爲代表的同類產品以圖像識別技術爲核心,匹配數據庫中的物體、場景或文字。
在GenAI技術的洗禮之下,傳統搜索已往生成式搜索靠攏,顯然,視覺搜索也需要順應這一趨勢。用戶已經不再滿足於僅僅獲取信息,而是期待更豐富、更智能、更個性化的體驗與解讀。
視覺搜索需要從單純的信息檢索工具,進化爲能夠理解用戶意圖、提供個性化內容、激發創意靈感、連接服務生態的下一代生成式視覺搜索。
GenAI對視覺搜索的變革性意義已經成爲共識。
去年,谷歌旗下的視覺搜索產品已與大模型進行了深度融合,可在識別畫面信息之外回答用戶的問題,內容由模型進行整合並輸出。Google Lens還進一步支持了視頻提問、語音提問等功能,同樣也可爲用戶提供豐富、個性化的交互體驗。
蘋果也提升了對視覺智能的重視。新款iPhone的“相機控制”按鈕能一鍵啓用視覺智能,成爲Apple Intelligence的視覺入口,支持拍餐廳看評價、拍傳單添加日程、拍小狗看品種、拍商品買同款等新穎的交互體驗。
支付寶近期推出“探一下”,也正是由於他們把握住了生成式視覺搜索這一視覺搜索領域的新趨勢。“探一下”業務負責人蔡偉(David Cai)曾在谷歌工作,從零開始深度參與了Google Lens等視覺搜索項目,他認爲這一代基於多模態大模型的視覺搜索技術變遷有兩大趨勢,一是由搜索走向生成,二是由文本輸入走向多模態、全模態輸入。
據瞭解,“探一下”的視覺原生解決方案將多模態大模型能力同mRAG(多模態檢索增強生成)、基礎視覺算法、Agent能力相結合,以視覺爲中心,提供了以探索爲核心亮點,有用、有趣的用戶體驗。
爲穩住識別等“求知”類需求的基本盤,並進行更具深度和廣度的分析解讀,“探一下”採用多模態大模型全圖理解+open-set多主體檢測的技術鏈路,能夠識別特定場景中的多個主體,並將識別的結果聚合到一起,從而實現意圖識別的快響應、高精度,並藉助大模型理解力和知識力,進一步分析信息、理解信息、提供信息。
在精細化識別的基礎上,“探一下”還可提供趣味性、啓發性的內容。結合預訓練好的“讀心、幽默、治癒”等文本模版,“探靈感”功能可以即時生成對應“類人”風格的文本。
響應速度是不少AI產品落地時的痛點。蔡偉介紹,“探一下”聯合螞蟻百靈多模態大模型團隊,針對大模型進行了輕量化推理加速,並採用了從視覺初定位,到粗意圖,再到精細化識別的Coarse-to-Fine機制,縮短了結果輸出的耗時,爲用戶提供了更爲即時的體驗。
準確性則是所有AI產品真正發揮實際效用的關鍵。探一下在生成回答時依靠不同的數據源,利用RAG技術綜合信息進行交叉驗證,還在最終輸出時註明來源,讓結果更可靠,用戶更信任。
同時,“探一下”在隱私與安全上保持了與支付寶金融級產品一樣的安全合規標準,對圖片類型、數據存儲位置(用戶或服務器)都進行了細緻嚴格的限定。
三、鏈接支付寶生態,“探一下”探萬物的可能性
“探一下”目前的主要入口是支付寶的掃一掃功能,這從一定程度上反映了螞蟻對這一交互形式的信心與決心。“我們認爲生成式AI帶來的搜索變革,其實是一個全新的交互形態,視覺不僅僅是文本的一個附庸,而是能承載獨立的產品入口。”
蔡偉進一步介紹,掃一掃在過去已積累了億萬級的用戶,新應用“探一下”能利用這一優勢,降低培養用戶習慣的成本。如果探一下能爲用戶創造足夠多的價值,或許有希望引發如上一輪“掃一掃”般的新一輪用戶行爲升級。
未來,“探一下”仍然會專注於大模型具有優勢,而前一代技術無法實現的場景。螞蟻並不是一家搜索起家的企業,這讓他們得以輕裝上陣,更自由地探索“探一下”發展的可能性。
基於支付寶丰富的服務供給,“探一下”未來可能會接入小程序、智能體和其他潛在的用戶交互形式。今年螞蟻集團接連推出了AI生活管家“支小寶”、AI金融管家“螞小財”和AI健康管家。作爲視覺元素交互入口,“探一下”也有可能成爲鏈接三大管家服務的重要入口。比如,在健康管家中,“探一下”可以識別藥物,並且進一步鏈接用藥指南、報告解讀、醫生推薦、智能導診等健康服務。
在三大AI管家之外,作爲獨立的視覺原生入口,“探一下”還能識別汽車等物品及場景,鏈接到支付寶的“車生活”服務,提供看車、充電等生活服務,具備鏈接商業世界的想象力空間。
“探一下”也可落地到更豐富的應用場景,如旅遊、戶外、親子等場景,不斷擴大內容生態;也能基於支付寶數字公益方面的經驗,發揮更大的社會價值,比如,探索無障礙輔助等領域,更好服務視障人羣。
“探一下”團隊在測試與發佈過程中發現了不少意外之喜:如用戶很喜歡用它來識別昆蟲;部分用戶還用“探一下”取代相機,作爲內容記錄與分享的新方式。作爲一款C端的通用AI視覺搜索產品,“探一下”未來會針對用戶需求不斷進行迭代,持續優化體驗。
此外,新一代視覺搜索也帶來了智能硬件的發展想象。在部分場景中,“Always-on”的智能眼鏡等硬件能提供比手機更好的用戶體驗,蔡偉稱“探一下”也在思考與智能硬件的融合模式。
結語:“探一下”或將引領下一代AI視覺搜索趨勢
搜索是互聯網的組織層,串聯起用戶、信息、商業、服務等諸多要素,是信息、智能世界的重要入口。谷歌定義了搜索目前的模樣,但他們起初或許並不知道搜索會長成它現在的樣子。
在生成式AI時代,視覺搜索這個動作,將極大豐富搜索的樣式,搜索不再是從已知中找答案,而是基於多模態大模型的視覺理解與創作能力,提供更智能、更豐富、更具交互性的服務體驗。
螞蟻集團入局AI視覺搜索,正是對其AI First戰略的進一步加速。2024年,螞蟻集團發佈三大AI管家,設立強化學習實驗室,AI專利、AI論文數量猛增。而支付寶的“探一下”也正在探索下一代AI視覺搜索新範式,煥新傳統的搜索產品,也有希望讓AI像掃碼支付一樣便利每個人的生活——不止有大腦能對話、有手腳能辦事,更有眼睛能探索身邊世界。