好消息!
騰訊AI足球隊獲得了一項世界冠軍。
這是 Google Research 與英超曼城俱樂部在 Kaggle 平臺上聯(lián)合舉辦的 11v11 足球 AI 競賽。
由于其兼具挑戰(zhàn)性和趣味性,一經(jīng)推出便吸引海內(nèi)外隊伍踴躍參加,截至 12 月中旬,吸引了來自世界各地的 1100 多個團隊,其中包含多支世界頂級學府和研究機構(gòu)的科研強隊。
最終——騰訊 AI Lab 絕悟 WeKick版本(下稱「絕悟」)以 1785.8 的分數(shù)獲得冠軍,且相比于其它隊伍優(yōu)勢非常明顯。
祝賀「絕悟」團隊取得佳績!
慢著,「絕悟」......不就是王者榮耀里的那個AI嗎?
是的。足球他一樣在行。
我們看到的足球比賽是這樣的:
在AI的眼里,卻是這樣的:
(AI 的世界就是如此的樸素無華而枯燥)
比賽使用的 Google Research Football 環(huán)境,是基于開源足球游戲 Gameplay Football 開發(fā)的強化學習環(huán)境。
外表簡陋,但和正常足球比賽一樣沒差,短傳、長傳、直塞、射門、鏟球樣樣都有。
(其實,只是主辦方為了節(jié)省計算資源,大部分比賽都沒有經(jīng)過3D渲染)
比賽絕對公平公正。
游戲場景是完全對稱的,雙方有一樣的球員,沒有主客場、狀態(tài)好壞的數(shù)值差異,沒有替補球員、沒有加時賽、進球多獲勝(否則平局)。
規(guī)則也與普通足球比賽類似——比賽分上下半場(各 45 分鐘,1500 步,兩支球隊各開球一次),目標都是將球踢入對方球門。
好了,比賽開始:
對方開場勢如破竹呀,只見對方10號傳給了中插的5號,一腳抽射,應聲入網(wǎng)。
「絕悟」0:1先丟一分。
可以看到,比賽中每個球員都各由一個單獨的智能體控制,參賽團隊需要實時選擇并控制其中一個智能體,與其他內(nèi)置智能體配合。
因此,每個球員不僅需要觀察對手的行為,還需要留意己方隊員的情況。這需要非常復雜的團隊協(xié)作和競爭策略。
由于球場動態(tài)瞬息萬變,因此高速的實時決策能力也是必需的。
(糟糕,解釋的這一下,絕悟又丟失了一球)
「絕悟」0:2落后兩分。
不過沒關(guān)系,幸得絕悟有著極其豐富的團戰(zhàn)經(jīng)驗。
我方7、8、9號三人相互配合,率先搶回一分。
緊接著,我方5號乘勝追擊,接到9號一記妙傳后,直抽龍門底角。
扳平!「絕悟」2:2。
賽點來了!我方10號把球直塞中路,8號反跑沖出,踢進制勝球。
最終「絕悟」3:2獲勝!
踢足球的「絕悟」,和打王者的「絕悟」,到底是不是同一個?
答案:是的!
和大多數(shù)參賽隊伍一樣,「絕悟」也主要采用了強化學習和自博弈(Self-Play)來從零開始訓練模型的方法。
其訓練的基礎架構(gòu)是基于「絕悟」完全體的架構(gòu)遷移得到的,詳情參閱《騰訊絕悟AI完全體限時開放體驗,研究登上國際頂會與頂刊》
基于此,騰訊 AI Lab 又針對足球任務對該框架做針對性改進,使其能適應 11 智能體足球游戲訓練環(huán)境。
......(此次省略20218888個字)
這也證明了騰訊 AI Lab 開發(fā)的「絕悟」的底層架構(gòu)與方法的通用性,可以預見這類方法未來還有望進一步遷移至機器人等更多領(lǐng)域,從而創(chuàng)造更大的實用價值。
從圍棋 AI 「絕藝」到策略決策型 AI 「絕悟」,再到如今的 AI 足球隊絕悟 WeKick 版本,騰訊 AI Lab 的深度強化學習智能體步步進化,逐漸向更復雜更多樣化的問題遷移,其中的每一次進展都讓我們離通用人工智能終極目標更近了一步。