@開發者,第二屆“馬欄山杯”國際音視頻算法大賽高分攻略請查收,心動大獎等你來戰!

一秒讓牆上的廣告消失,保留完整牆面;戶外大屏幕顯示LOGO被擦除後,背景毫不違和……

歡迎來到魔法世界——

停!這其實並不是什麼魔法,而是由弗吉尼亞理工大學提出的基於流的視頻補全算法FGVC的一項應用。作爲視頻的“橡皮擦”,FGVC可應用在視頻去水印、物體移除、畫面擴展等方面,併入選 ECCV 2020,極具研究意義。

智能時代,通過視頻補全算法,後期可以利用影視劇集數據構建模型,將非局部流連接引入到時間遙遠幀,實現真正的視頻補全或者抹除,堪稱音視頻產品的魔法師。正因如此,視頻補全也成爲第二屆“馬欄山杯”國際音視頻算法大賽重要賽題之一。

我們不難發現,隨着AI技術的持續發展,算法帶來了無限的想象空間。比如優質視頻的推薦,視頻水印的消除,甚至還能通過算法來掌握音樂節奏,讓人人都能享受更加優質的音視頻服務。那麼作爲開發者,要如何才能在算法的浪潮之中實現突破呢?

爲給廣大開發者及算法愛好者提供一個展現自身實力的舞臺,共同推進業界難題攻堅、行業創新探索,由中國(長沙)馬欄山視頻文創產業園芒果TV聯合舉辦第二屆“馬欄山杯”國際音視頻算法大賽正式拉開序幕。本次大賽分爲邀請賽、正式賽及現場頒獎交流分享三個階段,其中邀請賽階段已經結束,而正式賽則分爲視頻補全、視頻推薦及音樂節拍檢測三大賽道,更有心動大獎,爲了幫助大家取得更好的成績,筆者爲大家梳理一下每個賽題的題目要求和解題思路

三大賽題,瞄準音視頻算法業務焦點

NO.1視頻補全賽道

視頻補全技術是用新合成的內容填充給定的時空區域,可以應用在視頻修復、視頻編輯、特效處理、去水印等場景中。新合成的內容應該無縫嵌入視頻中,使得更改不被察覺。而此賽道就是要求以大賽組織方提供的視頻片段數據爲基礎,進行模型訓練,對缺失區域進行補全。其難點在於確保補全後的視頻連貫自然,不具有違和感。在這個領域,幾年前常用的方法是基於補丁的合成技術直接填補像素,該方法合成速度慢、較難控制。目前常用的視頻補全方法通常需要藉助深度學習來實現,如果僅依賴卷積神經網絡來借用複製補充,不僅效率低,合成圖像很容易因爲圖形和紋理的模糊導致用戶觀感較差。這裡可以參考FGVC算法,經過計算稠密光流(RAFT)、計算邊緣(Canny)、補全邊緣(EdgeConnect)、補全光流、傳播RGB值等一系列流程,能夠取得更好效果

此外,結合利用Deepfill進行圖像補全也是一個不錯的思路。

FGVC論文:《Flow-edge Guided Video Completion》

Deepfill論文:《Generative Image Inpainting with Contextual Attention》

NO.2視頻推薦賽道

艾媒諮詢數據顯示,中國短視頻行業覆蓋的用戶規模不斷擴大,2020年達7.22億人。如何吸引用戶點擊視頻,吸引用戶觀看,成爲各大視頻平臺的關鍵技術之一。而本次視頻推薦賽題,也直擊真實的推薦業務場景,打造了一個多任務的推薦問題,希望選手設計出一套精準有效的推薦模型。

對於推薦算法而言, 其本質上是一種信息處理邏輯,獲取了用戶與視頻內容各自信息之後,按照一定的邏輯處理信息產生的匹配推薦結果。以往粗放推薦缺乏精確度,而推薦算法則需要制定複雜的規則運算邏輯,挖掘用戶個性化興趣。其重點在於內容匹配,這會根據平臺的不同進行排序,將內容質量、關係和雙向互動的權重進行排序,而算法的主要流程則可以分爲五步,即召回、過濾、精排、混排和強規則。

在算法模型選取過程中,官方提供了大量的特徵維度和數據信息,用戶可以基於此使用XGboost、GBDT等傳統機器學習模型,也可以使用DSSM、DIN、DeepFM等深度學習模型來針對視頻特徵和用戶特徵進行建模。一般而言,深度學習與傳統模型有兩種融合方式:鬆耦合模型和緊耦合模型,二者各有優勢,鬆耦合模型可以靈活組裝,而緊耦合模型則可以通過聯合訓練從而得到整體最優效果。

這裡比較推薦《深度學習在推薦算法上的應用進展》一文,大家可以自行百度搜索作爲參考。

NO.3音樂節拍檢測賽道

通過檢測音樂節奏,來合理識別出音樂節拍的準確位置,對音頻處理尤爲關鍵。此賽道出題方要求以指定的數據集爲研究基礎,通過算法實現對節拍beat和重拍downbeat的檢測並標識時間點位。

隨着多媒體技術的發展,在智能節奏檢測、節奏跟蹤等上出現一些研究成果,如基於貝葉斯理論單音音樂節奏提取方法,引入貝葉斯節奏模型,採用基於貝葉斯理論的序列蒙特卡洛方法推斷音樂片段的小節和節拍的位置,但這些研究可能存在計算複雜度較高、準確度較低等缺點。

當然,條條大路通羅馬,檢測音樂節拍不只有一種思路,論文《Beat Tracking by Dynamic Programming》便提供了藉助動態規劃算法來構建模型的思路,可以作爲參考。

其建模思路主要分爲三步:首先計算Onset Strength Envelope(Onset的能量包絡),然後計算全局的Tempo,最後基於動態規劃計算beats。

此外,論文《Real Time Beat Tracking: A Mixed Approach Category: Music》提供了另一種解題方式。

該論文中表示,除了以往基於信號處理,利用CNN和RNN打造的實時或離線處理系統之外,也可以有不依賴神經網絡的方法,通過傅里葉變換也可以探查音樂中的音符、和絃以及打擊節奏等事件,再次對這些事件進行傅里葉變換就可以找到其中週期性從而確定節奏和節拍的位置。當然,最終採用哪種方法,選手可以結合實際情況自行選擇。

機會與獎勵已就緒,待八方“攻城獅”來戰

隨着人工智能、5G技術的飛速發展,音視頻算法新賽道已然呈現。

由中國(長沙)馬欄山視頻文創產業園和芒果TV聯合舉辦第二屆“馬欄山杯”國際音視頻算法大賽不僅提供了一個讓大家一展才華和交流學習的舞臺,還設置了豐富的獎勵和獎金等你來拿!

獎項設置情況如下:

視頻補全賽道中,冠軍33萬元,亞軍8.5萬元季軍,季軍3.5萬元,排名第4至10名均可獲得8000元;

視頻推薦賽道中,冠軍24萬元,亞軍6萬元,季軍2.5萬元,排名第4至10名均可獲得5000元;

音樂節拍檢測賽道中,冠軍24萬元,亞軍6萬元,季軍2.5萬元,排名第4至10名均可獲得5000元;

正式賽的賽程安排情況如下:

正式賽報名:2021年5月20日-2021年7月17日

正式賽比賽:2021年6月5日-2021年7月20日

獲獎公佈:2021年7月26日

峰會頒獎:2021年8月(青春芒果節期間)

需要注意的是,本次大賽不會設答辯環節,最終成績以線上評分爲準,同時大賽所設獎項獎金均爲含稅金額。

還等什麼?趕快加入大賽,與各路高手一較高下吧!詳情請見大賽官網