☰

o1推理將用於圖像理解，OpenAI在倫敦捅了開發者窩

OpenAI在Cursor裡用o1-mini現場捏應用，兩分鐘，直接控制無人機飛行。

引得臺下觀衆傳來陣陣驚呼：

如此操作，剛剛發生在OpenAI倫敦開發者日活動上。作爲OpenAI的“科技春晚”，真是好不熱鬧，現場擠滿了人從衆。

OpenAI產品部負責人Olivier Godement還劇透了一波o1新功能——

包含功能調用、開發者消息、流媒體、結構化輸出、圖像理解5個方面。

奧特曼在之後的問答環節表示不想劇透，但透露“圖像模型將很快迎來顯著提升”。他提到，複製現有模型並不難，而讓他爲OpenAI感到自豪的是，他們始終在創造新的突破。

網友們聽到這裡更興奮了：

OpenAI要在圖像方面發力其實也早有跡可循。

不久前，兩位清華校友路橙、宋颺就在OpenAI發佈最新圖像生成研究。

他們簡化了一致性模型，僅用兩步採樣，就能使生成質量與擴散模型相媲美，速度是擴散模型的50倍。

此外，對於OpenAI所說的圖像模型，還有人猜測不會是前幾天登頂文生圖競技場的爆火神秘小熊貓（red_panda）吧？

但這種說法很快就被否定了。

小熊貓背後團隊Recraft AI已發推文認領，這是他們的新模型recraft-v3。

總之，o1這次算是吊足了大夥兒的胃口，網友喊話趕緊發4.5o和5-preview：

在現場，奧特曼還被問到OpenAI的發展方向是更像o1這樣的模型，還是會有更大規模的模型？

他表示想在各方面都變得更好，但推理模型的發展對OpenAI尤其重要。

在談論到“什麼是Agent”、“它們可以做什麼”，奧特曼表示Agent是一個可以接受長期執行任務，並在執行過程中只需很少監督的東西。

奧特曼認爲大家最常舉的一個例子是可以讓Agent幫忙預訂餐廳，它可以用在線餐廳預訂平臺OpenTable或者是直接打電話到餐廳。

這確實能爲人們減少一些工作，但更有趣的事是能創造一個世界，在那裡可以做一些人類無法或不願做的事。

比如與其讓Agent打電話給餐廳預訂座位，不如讓Agent打給300家，找到最好吃或是最有特色的那一家，它可以並行處理大量任務。

接下來，奧特曼還被問到最敬重的競爭對手是哪個，他提到的第一個就是Cursor AI，但隨後又補充道：

文章轉載:[tobp.carsandvansrus.com）

要知道，昨天微軟剛剛宣佈了GitHub Copilot接入Claude和Gemini。

文章轉載:[px.arpansahdev.com）

奧特曼轉頭給了微軟競爭對手Cursor AI一個點贊……

文章轉載:[lh.anewlife8.com）

此外，奧特曼還被問到最令人興奮的AI應用場景是什麼，他再次Q到Agent：

文章轉載:[hrow.anamobe.com）

奧特曼還認爲大模型的大多數缺點將在未來幾代中逐步消失。

文章轉載:[dbg.airinajar.com）

除了預告，OpenAI還有最新動作——

文章轉載:[zly.admfasteners.com）

開源了一個評估語言模型回答簡短、事實性問題能力的新基準，名爲SimpleQA。

文章轉載:[vvid.yishangshi.com）

論文共同一作是去年在X上約戰提示詞決鬥引得大夥兒紛紛圍觀的Jason Wei（思維鏈開山論文一作）和Karina Nguyen（提示詞決鬥那會兒還在Anthropic，現已是OpenAI工程師）。

文章轉載:[rf.wow-wash.com）

有意思的是，o1-mini和o1-preview在此基準上都不及格，而且兩者相差還很大：

文章轉載:[np.wawaxx.com）

參考鏈接：[1]https://twitter.com/idonotwritecode/status/1851565982889713962[2]https://twitter.com/stevenheidel/status/1851574257819562195[3]https://x.com/kimmonismus/status/1851708364503552312[4]https://twitter.com/OpenAI/status/1851680760539025639[5]https://twitter.com/AymericRoucher/status/1851657127410151461[6]https://www.youtube.com/watch?v=VTeRZqUHi4E[7]https://x.com/caromcc_/status/1851570587287601237

文章轉載:[jz.viaepiacenter.com）

o1推理將用於圖像理解，OpenAI在倫敦捅了開發者窩

相關資訊