上海臨競科技申請基於強化學習的多風格高可控策略學習專利,能夠令單一強化學習模型同時具有多種風格策略

金融界2025年1月24日消息,國家知識產權局信息顯示,上海臨競科技有限公司申請一項名爲“基於強化學習的多風格高可控策略學習方法及系統”的專利,公開號CN 119337966 A,申請日期爲2024年12月。

專利摘要顯示,本發明提供了一種基於強化學習的多風格高可控策略學習方法及系統,獲取智能體在環境中的元行爲,對每個元行爲進行獎勵塑造,每個元行爲包括一個對應的風格參數,風格參數控制完成這些元行爲後的獎勵尺度;在智能體與環境交互的過程中,根據元行爲的數目,隨機生成一組風格參數,風格參數與狀態組合送入智能體的模型進行推理得到動作,動作反饋至環境後,產生當前時刻智能體獲得的獎勵和下一時刻的狀態;對智能體與環境交互的過程中的風格參數、狀態、動作以及獎勵進行強化學習,得到多風格高可控策略模型。本發明能夠令單一強化學習模型同時具有多種風格的策略,通過調節多風格參數,可以對模型的策略進行控制,增加了策略的可控性。

天眼查資料顯示,上海臨競科技有限公司,成立於2024年,位於上海市,是一家以從事科技推廣和應用服務業爲主的企業。企業註冊資本22.2222萬人民幣。通過天眼查大數據分析,上海臨競科技有限公司共對外投資了1家企業,專利信息3條。

本文源自:金融界

作者:情報員