☰

百川智能發佈全模態模型Baichuan-Omni-1.5，性能大幅超越GPT-4o-mini

百川智能今日宣佈，其全新全模態模型Baichuan-Omni-1.5正式上線。該模型支持文本、圖像、音頻和視頻的全模態理解，並具備文本和音頻的雙模態生成能力。在視覺、語音及多模態流式處理方面，Baichuan-Omni-1.5的表現優於GPT-4o-mini，尤其在多模態醫療應用領域表現出色。

Baichuan-Omni-1.5不僅能在輸入和輸出端實現多種交互操作，還擁有強大的多模態推理能力和跨模態遷移能力。其音頻技術採用端到端解決方案，支持多語言對話、端到端音頻合成、自動語音識別和文本轉語音等功能，且可實現音視頻實時交互。

在視頻理解方面，通過對編碼器、訓練數據和方法的優化，Baichuan-Omni-1.5的整體性能大幅提升。此外，該模型構建了包含3.4億條高質量圖片/視頻-文本數據和近100萬小時音頻數據的龐大數據庫，在SFT階段使用了1700萬條全模態數據，進一步提升了模型的準確性和魯棒性。

免責聲明：本文內容由開放的智能模型自動生成，僅供參考。

相關資訊