百川智能發佈全模態模型Baichuan-Omni-1.5,性能大幅超越GPT-4o-mini
百川智能今日宣佈,其全新全模態模型Baichuan-Omni-1.5正式上線。該模型支持文本、圖像、音頻和視頻的全模態理解,並具備文本和音頻的雙模態生成能力。在視覺、語音及多模態流式處理方面,Baichuan-Omni-1.5的表現優於GPT-4o-mini,尤其在多模態醫療應用領域表現出色。
Baichuan-Omni-1.5不僅能在輸入和輸出端實現多種交互操作,還擁有強大的多模態推理能力和跨模態遷移能力。其音頻技術採用端到端解決方案,支持多語言對話、端到端音頻合成、自動語音識別和文本轉語音等功能,且可實現音視頻實時交互。
在視頻理解方面,通過對編碼器、訓練數據和方法的優化,Baichuan-Omni-1.5的整體性能大幅提升。此外,該模型構建了包含3.4億條高質量圖片/視頻-文本數據和近100萬小時音頻數據的龐大數據庫,在SFT階段使用了1700萬條全模態數據,進一步提升了模型的準確性和魯棒性。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。