長江證券:OpenAI推出API新功能“結構化輸出”,國內廠商發力開源多模態

智通財經APP獲悉,長江證券發佈研報認爲,OpenAI新推出的模型API全部支持結構化輸出,提高AI輸出可靠性,簡化開發流程,從而使得開發者可以精確控制AI模型的輸出格式,確保數據的準確性和一致性。國內廠商推動多模態大模型開源,或將加速AI技術的創新和發展。

事件描述

OpenAI新推出的模型API全部支持結構化輸出,JSON Schema匹配率高達100%,從而使得開發者可以精確控制AI模型的輸出格式,確保數據的準確性和一致性。國內廠商推動多模態大模型開源,智譜CogVideoX-2B、面壁智能MiniCPM-V2.6、阿里Qwen2-Audio相繼開源,或將加速AI技術的創新和發展。

事件評論

結構化輸出提高AI輸出可靠性,簡化開發流程。1)提升輸出準確性,使用性價比凸顯。性能方面,開發者可通過定義JSON Schema模式,實現對AI輸出的精確控制,解決以往AI輸出格式不穩定的問題。帶有結構化輸出的新模型gpt-4o-2024-08-06對複雜的JSON Schema的跟蹤評估中,評分高達100%,顯著優於舊版模型。此外結構化輸出功能兼容多種API,並支持視覺輸入,拓寬AI技術的應用範圍。成本方面,最新的gpt-4o-2024-08-06模型與此前的gpt-4o-2024-05-13相比,可在輸入上節省50%(2.5美元/100萬輸入tokens)、在輸出上節省33%(10美元/100萬輸出tokens)。2)降低技術門檻,提供個性化智能體驗。結構化輸出功能的應用範圍廣泛,從動態生成用戶界面、分離最終答案與推理過程,到從非結構化數據中提取結構化數據等,均能夠提供更加精準、高效的支持。例如在.NET開發中,開發者可利用該功能生成動態用戶界面,根據用戶意圖創建代碼或UI;或在會議記錄中提取待辦事項、截止日期和負責人等。結構化輸出功能簡化了AI應用的開發流程,使開發者能夠更專注於創新和應用邏輯的構建。

開源模式持續發展,推進技術普及與應用創新。1)智譜開源其與“清影”同源的視頻生成模型CogVideoX,消費級顯卡即可運行。目前開源的版本CogVideoX-2B能夠生成長度爲6秒、每秒8幀、分辨率爲720*480的視頻。同時模型在FP-16精度下推理需要僅需18GB顯存,微調僅需40GB顯存。因此單張4090顯卡即可進行推理,而單張A6000顯卡即可完成微調。2)面壁智能上線開源模型MiniCPM-V2.6,引領端側多模態。模型參數僅8B,在端側實現實時視頻理解、多圖聯合理解、多圖ICL視覺類比學習、多圖OCR等功能。模型能力方面,MiniCPM-V2.6在端側實現單圖、多圖、視頻理解等多模態核心能力全面對標GPT-4V。3)阿里開源最新語音模型Qwen2-Audio,性能大幅優化。功能方面,Qwen2-Audio支持語音聊天和音頻分析兩種模式,能夠提供更自然的語音交互體驗和深入的音頻分析能力;模型還引入了監督式微調(SFT)和直接偏好優化(DPO)兩種方法,能夠通過高質量的微調數據與人類意圖對齊,並通過人類標註的響應數據來優化模型,從而使其輸出更符合人類的期望和偏好。同時Qwen2-Audio支持中文、粵語、法語、英語、日語等主流語言和方言,或將有助於開發翻譯、情感分析等應用。

AI技術的進步提升了輸出的準確性和開發效率,開源模式的推廣加速了技術的普及和創新應用的涌現。長江證券認爲AI技術及應用領域持續突破,建議持續關注AI在廣告、電商、影視、遊戲和教育等各領域的商業化落地。

風險提示

1、AI技術發展不及預期風險;

2、內容監管風險。