北京深度求索公司推出首個國產開源MoE大模型

1月15日訊,北京深度求索公司推出首個國產開源MoE大模型DeepSeek MoE,性能媲美Llama 2-7B,計算量降低60%。DeepSeek MoE目前推出的版本參數量爲160億,實際激活參數量大約是28億。此外,深度求索團隊還透露,DeepSeek MoE模型還有145 B版本正在研發。階段性的初步試驗顯示,145 B的DeepSeek MoE對GShard 137 B具有極大的領先優勢,同時能夠以28.5%的計算量達到與密集版DeepSeek 67 B模型相當的性能。(量子位)