☰

谷歌2小時瘋狂復仇，終極殺器硬剛GPT-4o！Gemini顛覆搜索，視頻AI震破Sora

新智元報道

編輯：編輯部

【新智元導讀】昨天被OpenAI提前截胡的谷歌，今天不甘示弱地開啓反擊！大殺器Project Astra效果不輸GPT-4o，文生視頻模型Veo硬剛Sora，用AI徹底顛覆谷歌搜索，Gemini 1.5 Pro達到200萬token上下文……谷歌轟出一連串武器，對OpenAI貼臉開大。

谷歌I/O 2024如期來了，眼花繚亂地發佈了一堆更新。

跟OpenAI半小時的「小而美」發佈會相比，谷歌顯然準備得更加充分，當然，時間也相當之長……

2個多小時的發佈會也是挑戰着觀衆們的極限，在場人羣早已困倒一大片

準備好，谷歌要開始轟炸了。

首先，Gemini 1.5 Pro，上下文長度將達到驚人的200萬token。

然後，面對昨天OpenAI GPT-4o的挑釁，谷歌直接甩出大殺器Project Astra，視覺識別和語音交互效果，跟GPT-4o不相上下。

接着，谷歌祭出文生視頻模型Veo硬剛Sora，效果酷炫，時長超過1分鐘，打破Sora紀錄。

最後來了一個重磅消息：谷歌搜索將被Gemini重塑，形態從此徹底改變！我們不再需要自己點進搜索結果，而是由多步驟推理的AI Overview來代辦一切。

發佈會結束後，劈柴甚至還用Gemini算了一下，整個發佈會共提了121次AI。

Gemini時代，來了

CEO劈柴上來就無視了GPT和Llama的存在，這樣總結道：「我們完全處於Gemini時代」。

並且給出數據：如今全世界使用Gemini的開發者，一共有150萬人。

萬衆矚目的Gemini更新如期而至。

Gemini 1.5 Pro最強特性之一，就是超長的上下文窗口，達到了100萬tokens的級別，超過了目前所有的大語言模型，而且開放給個人用戶使用。

今天，劈柴宣佈：它的上下文token數將會達到2000K（200萬）！相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

而這也意味着——你可以給模型輸入2小時視頻、22小時音頻、超過6萬行代碼或者140多萬單詞。

2M長上下文窗口，可以去排隊申請了

這個上下文長度，已經超過了目前所有大模型。

但是，這並不是終點，谷歌的目標是——無限長上下文，不過，這就是後話了。

用籃球講解牛頓運動定律

在這樣的Gemini加持下，我們可以實現許多迅捷的功能。

比如，作爲父母需要了解孩子在學校的情況，就可以在Gmail中要求Gemini識別所有關於學校的電子郵件，然後幫你總結出要點。

如果你錯過了公司會議，但可以拿到一小時時長的會議錄音，Gemini就能立刻幫你總結出會議要點。

爲了幫助學生和教師，在NotebookLM中，谷歌設計了一個「音頻概述」的功能。

把左邊的所有材料作爲輸入，Notebook就可以把它們整合成一個個性化的科學討論了。

對於聽覺學習型學生，這種形式就非常生動。

演示這個demo的Josh表示，自己的兒子第一次看到這個功能時，直接驚掉下巴。

他第一次感覺到，學習不再是死板的，牛頓力學定律居然以通過籃球來學習！

支持多模態的Gemini可以處理你上傳的任何格式的信息，理解內容後將其改造成適合你的形式，與你對話互動了！

Agent：幫你申請退貨

接下來，劈柴展示了Agent的一些例子。

買了一雙鞋子，不合適想退回怎麼辦？

拍一張照片給Agent，它就可以從你的郵箱中搜出訂單後，幫你填寫退貨單了。

‍

再比如，你剛搬到某個城市，Agent就能幫你探索你在這個城市所需的服務了，比如干洗店、幫忙遛狗的人等等。

如果靠我們自己搜索，可是要搜十幾個網站，但Gemini可以發揮自己的「多步推理」能力包攬這些任務，把你需要的信息一次性提供給你！

搜索和整合信息的功能非常強大，輸入新家的地址後，它甚至可以代替軟件問你外賣應該放哪個位置。

總的來說，谷歌的理念就是：利用Gemini的多模態、超長上下文和智能體能力，把世界上的所有信息組織起來，讓它們對每個人都可觸達、可利用。

而最終目標，就是讓AI對每一個人都有用。

谷歌搜索，被Gemini徹底重塑

之前OpenAI一直有意無意放出煙霧彈，聲稱要發佈全新的搜索產品，等於是把刀架在谷歌脖子上了。

果然，谷歌這次不甘示弱，放出了個大的。

從今天開始，在Gemini的加持下，谷歌搜索會徹底變樣。

在搜索框下，會出現一個爲你量身定做的AI總結。

注意，它並不簡單地將所有內容拼湊在一起，而是幫你把活都幹了！

你的問題是什麼樣，它就會幫你做規劃，展示出若干個卡片，讓搜索信息以鮮明的方式被呈現出來。

這次AI Overview即將發佈的另一個重磅功能，就是多步驟推理。

它能將用戶輸入的一個複雜問題分解成多部分，確定需要解決哪些問題，以及用什麼順序解決。

因此，以前可能要花幾分鐘甚至幾個小時的研究，現在幾秒鐘內就可以完成！因爲它將十個問題合而爲一。

比如，如果想找到波士頓最好的瑜伽或普拉提工作室，它會直接搜出來結果，然後幫你整理好情況介紹和工作時間。

只要一次搜索，所有需要的信息就自動呈現出來。

在下面這個例子中，你可以要求谷歌提供一個三天的膳食計劃。

這些食譜被從整個網絡整合出來，清晰又全面。

而且，我們還可以用視頻去搜索了！

比如，該怎麼修這個唱片機？

以前，我們需要進行一堆搜索，確定它的牌子、型號。

現在，直接拍一個視頻丟給谷歌，然後直接開口問：它的這個毛病是什麼原因？

谷歌用AI Overview，給出了最全面的信息。

從此，在谷歌搜索中，你需要做的，就是簡單的「張嘴問」。

對標GPT-4o，Project Astra打造通用AI智能體

我們已經看到，新模型GPT-4o賦予了ChatGPT強大的實時對話能力，讓Her走進現實。

全新AI語音助手，是通往AGI的下一個未來。

對標OpenAI，谷歌DeepMind今天首次對外公佈了「通用AI智能體」新項目——Astra。

其實，昨天谷歌放出了一個demo，已經讓所有人對Astra項目有了初步的瞭解。

而今天，現場的演示更加炸裂。

網友稱，這是谷歌I/O大會中，自己最喜歡的part。

不僅有Astra強大的對答如流的能力，還首次展示了「谷歌AR原型眼鏡」配上AI的震撼演示。

Astra兩部分演示，每段視頻均爲單次拍攝、實時錄製完成

召喚Gemini之後，測試者提出問題，「當你看到會發出聲音的東西時，告訴我」。

它回答道，「我看到一個揚聲器，它可能會發聲」。

接下來，測試者用紅色剪頭指向揚聲器的頂部，再次問道，「這個揚聲器的部件叫什麼」？

Gemini準確理解指令，並答出「這是高音揚聲器，能產生高頻的聲音」。

然後，對着桌上一桶彩色蠟筆，讓Gemini就展示的物體，給出了「押頭韻」的創意——

「Creative crayons color cheerfully. They certainly craft colorful creations.」

Gemini以「c」音重複開頭，生動形象地描繪了用蠟筆歡快塗色，可以創作出許多絢麗多彩作品的場景。

而更讓你意想不到的是，它還可以讀懂代碼。

甚至都不是截屏，而是用攝像頭懟着電腦屏幕拍，然後問Gemini「這部分代碼是做什麼的」？

Gemini看了一眼，就立即給出回答：「此段代碼定義了加密和解密函數。它似乎使用AES CBC加密，根據密鑰和初始化向量對數據進行編碼和解碼」。

再將鏡頭移向窗外，「我在哪個街區」？

Gemini便回答道，「這似乎是倫敦國王十字區，這裡以火車站和交通樞紐而聞名」。

眼鏡找不到了？

直接可以問Gemini，「你記得在哪裡見過我的眼鏡」？

它立刻回想剛剛見到的場景，「是的，我記得。你的眼鏡就在桌子上，旁邊有一個紅蘋果」。

要知道，剛剛這個問題並沒有向它提過，Astra完全是憑自己的視覺記憶回答出來的，簡直成精了。

而Astra的這番表現，直接讓全場倒吸一口涼氣，發出驚呼。

谷歌原型AR眼鏡首現身

接下來的演示，更炫酷了。

剛剛找到的眼鏡，竟是谷歌的原型AR眼鏡！配合上強大的Gemini模型，即將開闢全新的應用。

測試者走到白板前，看向一個「服務器」的構建示意圖，然後問道，「我應該怎樣做能使這個系統更快」？

Gemini表示，「在服務器和數據庫之間，添加緩存可以提高速度」。

再比如，「看到如下圖，會讓你想起什麼」？

——薛定諤的貓！

「在幫我給這對傢伙，起一個二重唱樂隊名字」。

——Golden Stripes

大會上，Hassabis稱，「一直以來，谷歌希望構建一個能在日常生活中真正有所幫助的通用AI智能體。如今，這一願景成爲現實，可以追溯到很多年前。這也是谷歌從頭開始打造多模態Gemini的主要原因」。

真正的通用AI智能體，必須像人類一樣，對複雜、動態的世界做出理解和響應。

它需要接受和記住所看到的內容，以便理解上下文采取行動，並且具備主動性和個性化。

甚至，你可以與其如真人般絲滑交流，沒有任何滯後或延遲。

爲了打造這款全能AI智能體，谷歌DeepMind克服了很困難的工程挑戰——將AI響應時間降低至對話水平。

具體來說，谷歌團隊在Gemini的基礎上，開發了能夠持續編碼視頻幀的智能體。

然後，將視頻和語音多模態輸入，整合到事件時間軸中並緩存，以便實現AI智能體高效召回，更快處理信息。

此外，谷歌還使用廣泛的語調變化，增強了語音輸出效果。

基於這些努力，Astra能夠更好理解上下文，在交談中可以快速做出反應，讓互動的節奏和質量感覺更加自然。

有網友稱，「谷歌的這個Astra項目絕對是遊戲規則的改變者，我們現在生活在一個由個人AI助手組成的世界，聊天機器人現在已經過時了。它可以實時地看、說、聽，幾乎沒有延遲」

當然，這次演示中，谷歌偷偷推出的AR硬件，也成爲網友們的關注點。

谷歌科學家剛剛放出了，用Astra看谷歌I/O大會的演示，可以自己感受下。

圖像、音樂、視頻，面面俱到

與此同時，谷歌大會上再次推出了一系列關於「生成式媒體工具」的最新進展。

其中，包括圖像、音樂，以及視頻模型。

最強AI文生圖Imagen 3

首先，AI文本到圖像生成模型Imagen 3迎來重磅升級。

比起上一代，Imagen 3能生成更多細節、光影豐富，且干擾僞影更少的圖像。

新模型對提示的理解能力，得到顯著提升，可以從較長的提示中，捕獲細節。

如下圖中，對狼的特徵，背景顏色，畫質質量等要求，Imagen 3一致地呈現了出來。

另外，Imagen 3可以生成視覺豐富、高質量的圖像，有良好光照和構圖。

它可以準確地渲染小細節，比如人手上的細微皺紋，以及複雜的紋理。

下圖中，毛絨大象清晰的編織紋理，還有光照，效果鮮明。

Imagen 3還可以在更長的提示中，加入一些微小的細節，比如「野花」、「藍色的小鳥」...

谷歌還極大地改進了Imagen 3的文本渲染能力。

如下圖片提示，「由各種顏色的羽毛組成的「光」字，黑色背景」，然後Imagen 3生成了漂亮的字體。

以下是官方給出的更多演示demo：

左右滑動查看

視頻生成模型Veo，1080p超過60秒

這次谷歌發佈的視頻模型Veo，可以看作是對OpenAI Sora的正面迎戰了。

可以看出，Veo生成的視頻不僅真實，而且在光線、構圖等方面具有驚人的電影感。

Veo的推出建立在DeepMind過去一年各種開創性成果的基礎上，包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。

谷歌結合了這些成果中最好的架構和技術，提高了一致性、質量和分辨率。

Veo具備1080p的高質量，用戶提示可以是文本、圖像、視頻等各種格式，還能捕捉到其中關於視覺效果和影像風格的各種細節描述。

通過點擊「擴展」按鈕，用戶就可以持續增加視頻的時長，最終，它的時長已經超過Sora達到了1分10秒。

可以看到，在下面這個視頻中，汽車的形狀與周圍環境始終保持一致。

有這種專業級的生成效果，電影製作人可以直接用Veo來協助創作了。

從此，每個人都可以成爲導演，也應該成爲導演。

好消息是，Veo已經開始在官網開放試用了。此外，團隊還開發了實驗性工具VideoFX搭載Veo模型。

申請入口：https://aitestkitchen.withgoogle.com/tools/video-fx

在谷歌官博中，給出了Veo更多演示，還特別強調了均是AI生成，未經過修改：

Music AI Sandbox

在音樂方面，谷歌和Youtube一起構建了Music AI Sandbox。

輸入一段旋律，它就可以進行風格遷移，幫助藝術家們快速實現自己的想法和創意。

爲此，谷歌還特意邀請了許多音樂家、詞曲作者和製作人來測試。

他們驚喜地發現，使用這個新的AI音樂工具，他們居然做出了自己從未想到的音樂！

比如這位音樂製作人，希望把樂曲中的這段旋律變一個風格。

Music AI Sandbox的產出，讓他激動地當場跳起來。

他表示，作爲一個嘻哈音樂製作人，AI帶給他的嘗試空間，是無止境的。

Demis Hassabis：我在思考智能的本質

谷歌DeepMind負責人Hassabis表示，自己從小玩國際象棋時，就一直在思考智能的本質是什麼。

他深信，如果我們能以負責任的方式建造AGI，影響將是深刻的。

谷歌DeepMind自去年成立以來成績斐然。而最近的大成就，就是幾乎可以預測所有生命分子結構和相互作用的AlphaFold 3了。

原生多模態Gemini App

谷歌還打造出了一款Gemini原生多模態應用，可以同時文本、音頻、視頻內容。

一直以來，谷歌希望能夠打造一個有用的個人AI助理。

Gemini App，正重新定義我們的交互方式。

爲了讓我們與Gemini交互更自然，谷歌發佈了Gemini Live。

有了它，你可以在給朋友發消息的同一個程序中，還能與Gemini聊天。

你甚至可以控制自己的說話節奏，或者隨時打斷Gemini回答，如同與真人交流一樣。

比如，你正在爲一場面試做準備，只需要進入Live，讓Gemini陪你一起做準備。

Gemini可以與你進行模擬面試排練，甚至在與潛在僱主交談時應該突出哪些技能，還能提供建議。

谷歌表示，今年晚些時候，會推出攝像頭模式，可以以周圍環境與Gemini實現對話。

與此同時，谷歌還推出了根據個人需求自定義的Gemini專家——Gems。

它可以是你的健身教練、瑜伽夥伴，也可以是你的寫作創意導師、編程夥伴等等。

接下來，谷歌還展示了通過規劃，讓我們如何離AI助手更近一步。

比如，一次旅行的規劃，需要涉及地理、時間、天氣等諸多因素，需要AI能夠做出優先順序和決策的能力。

Gemini Advanced的全新旅行規劃，可以將模型推理和智慧融爲一體，爲人類更好服務。

Ask Photos新功能

在Gemini的加持下，谷歌還會推出Ask Photos的新功能。

比如，如果付停車費時忘了自己的車牌號，就可以直接詢問自己的車牌照片是哪個，不需要翻閱手機裡的大量照片了。

在比如，你可以問它女兒是什麼時候學會游泳的？她的游泳是怎麼進步的？

Gemini會識別衆多照片中的不同場景，將所有相關內容彙總。

Gemini 1.5 Flash：更小，更快，200萬token

根據某些Gemini 1.5 Pro用戶的反饋，一些程序需要更低的延遲和服務成本。

針對這一點，谷歌發佈了Gemini 1.5 Flash。

跟Pro比，Flash是一個更輕量級的模型，專爲那些對響應速度要求極高的特定或頻繁任務優化。

並且，它同樣具有多模態、1M tokens長上下文的特點，只不過實現了輕量化、低延遲、高效推理，每百萬個token的價格僅是Pro版的二十分之一。

今天起，Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了，開發者可以註冊申請兩百萬token的內測版。

此外，爲了方便開發者，谷歌還對Gemini的API功能進行了三項優化——視頻幀提取、並行函數調用和上下文緩存。

第六代TPU Trillium，4.7倍性能提升

在背後給這些技術進步提供基礎設施的，就是谷歌的TPU。

簡單來說，相較於TPU v5e，第六代Trillium TPU在性能上實現了高達4.7倍的提升，並在能效上提升了超過67%。

爲了實現這一飛躍，谷歌增大了矩陣乘法單元（MXUs）的規模並提升了時鐘速度。

併爲Trillium配備了第三代SparseCore——專門用於處理高級排序和推薦工作負載中常見的超大嵌入的加速器。

在這裡，SparseCores可以通過從TensorCores策略性地卸載隨機和細粒度訪問，有效加速了重嵌入型工作負載。

與此同時，谷歌還將高帶寬存儲器（HBM）的容量和帶寬翻倍，並將芯片間互連（ICI）的帶寬提升了一倍。

由此，Trillium可以支持更加複雜的模型，擁有更多的權重和更大的鍵值緩存，並大幅縮短了大模型的訓練時間和響應延遲。

在一個高帶寬、低延遲的Pod中，Trillium可以擴展至256個TPU。

而通過多切片技術和Titanium智能處理單元（IPU），Trillium還可以進一步擴展——通過數百個Pod，連接數以萬計的芯片，並在一個多千兆位每秒的數據中心網絡支持下，組成一個超大規模的超級計算機。

更多的開源模型

最後，谷歌還發布了自家首個視覺-語言開源模型——PaliGemma，專門針對圖像標註、視覺問答及其他圖像標籤化任務進行了優化。

不僅如此，谷歌還將在6月推出規模更大的開源模型——Gemma 2 27B。

在性能方面，全新的Gemma 27B不僅超越了規模大了2倍還多的模型，而且還能在GPU或單個TPU主機上高效運行。

參考資料：

https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus?e=48754805

https://www.youtube.com/watch?v=XEzRZ35urlk

谷歌2小時瘋狂復仇，終極殺器硬剛GPT-4o！Gemini顛覆搜索，視頻AI震破Sora

相關資訊