新算法助力!機器人即將實現“直覺行動”
赫特福德郡大學的研究人員開發了一種新算法,該算法能讓機器人的運行更具直觀性——也就是說,利用其環境來指導決策。
原理在於,藉助該算法,機器人代理能自行創建目標。
該算法首次把不同的目標設定方法統一在一個與物理學直接相關的概念之下,並且還讓這種計算變得透明,以便其他人能夠進行研究和採用。
該算法的原理與著名的混沌理論有關,因爲這種方法讓代理成爲“系統動態混沌的主宰者”。
該研究已在《PRX Life》雜誌上發表。來自赫特福德郡的研究人員探索了機器人“動機模型”,這些模型即使在沒有明確獎勵信號的情況下,也能模仿人類和動物的決策過程。
該研究引入了人工智能(AI)公式,這些公式能爲機器人計算出一種在沒有直接指令或人類輸入時決定未來行動的辦法。
計算機科學教授兼資深作者丹尼爾·波拉尼(Daniel Polani)解釋說:“從應用的角度來講,這可能意味着,比如說,讓機器人在沒有被告知的情況下自行玩耍和操作物體。
“它可以通過鼓勵更‘自然’的行爲和互動來改進機器人學習與人類和其他機器人互動的方式。
“這有更多的應用——例如放置在人類操作員無法觸及的情況下(如地下或星際位置)的半自主機器人的生存能力表現。”
在人類和動物中,有一種理論假定存在一種“內在動機”,在這種情況下,行爲是由生物與其環境之間的相互作用驅動,而不是由特定的學習獎勵(如食物)驅動。本文成功地把這種“內在動機”理論轉化成機器人代理可以使用的理論。
波拉尼教授補充說:“這項工作令人感到興奮,因爲我們如今能夠在機器人裡落實一種機制,這種機制類似於幫助人類和動物在毫無先前經驗的狀況下解決新問題的那些機制。
我們期望能以這項工作爲基礎,在未來研發出流程更直觀的更像人的機器人。它爲有着和我們類似決策過程的更復雜機器人創造了巨大的機遇。
這篇論文所依據的理論,被稱作‘賦能最大化’,在赫特福德大學已經發展好些年了。它指出,通過擴大未來結果的範圍,機器人在更長遠的未來也能有更優的選擇。關鍵在於,這種方法替代了傳統的獎勵系統(比如食物信號),並且有可能因此將其排除掉了。
雖然賦權最大化已展現出良好的發展前景,但它尚未得到充分理解或廣泛應用。過去大多數研究依賴於模擬,在精心計算複雜系統所需信息的同時,該理論仍頗具挑戰性。
然而,這項最新的創新性研究旨在闡釋爲何基於賦權的動機能夠催生出類似於生物體的行爲,從而有可能造就更多內在驅動型的機器人;並且它還提供了一種得到顯著改進的計算這些動機的方法。
波拉尼教授稱,接下來的步驟是運用這種突破性算法,讓機器人能更多地瞭解世界,發展直接學習的能力,並識別和錘鍊在現實場景中能夠提升其價值的新技能。