大數(shù)據(jù)是干什么的
人工智能應(yīng)用
場景概述
2016年AlphaGo橫空出世,4:1戰(zhàn)勝李世石,17年又以3:0戰(zhàn)勝世界圍棋冠軍柯潔,此后三年,星際,Dota2,德州撲克等均涌現(xiàn)出超高水平AI。人工智能應(yīng)用在其中起到了不可替代的作用。
游戲智能體通常采用深度強化學(xué)習(xí)方法,從0開始,通過與環(huán)境的交互和試錯,學(xué)會觀察世界、執(zhí)行動作、合作與競爭策略。每個AI智能體是一個深度神經(jīng)網(wǎng)絡(luò)模型,主要包含如下步驟:
1、通過GPU分析場景特征(自己,視野內(nèi)隊友,敵人,小地圖等)輸入狀態(tài)信息(Learner)。
2、根據(jù)策略模型輸出預(yù)測的動作指令(Policy)。
3、通過CPU單線程模擬玩家,每個玩家(Actor)執(zhí)行不同的策略。
4、不同策略對應(yīng)不同結(jié)果,不同結(jié)果產(chǎn)生不同的Reward(獎勵分?jǐn)?shù))。
5、該獎勵分?jǐn)?shù)作為參數(shù)用來更新策略模型,再進行新一輪學(xué)習(xí)。
客戶瓶頸
1、實時性與長期性:AI不僅要做出實時的操作決策,還要做出長期的規(guī)劃決策,通常對于游戲時間30分鐘左右的STG游戲,對應(yīng)的決策步數(shù)(Policy)超過7000步,這意味著Actor執(zhí)行Policy的時間成本較高。
2、復(fù)雜的動作空間:玩家需要同時操作移動方向、視角方向、攻擊、姿態(tài)(站、蹲、趴、跳、跑)、交互(救人、拾取、換彈)等操作,產(chǎn)生復(fù)雜的組合動作空間,可行動作數(shù)量在10^7量級。對于CPU計算能力要求較高。
3、訓(xùn)練任務(wù)快速部署:客戶進行AI強化學(xué)習(xí)時,需要短時間(10mins)拉起上萬核CPU,對動態(tài)擴容能力要求較高。
競享實例的應(yīng)用
該AI學(xué)習(xí)引擎采用競享實例提供CPU資源。得益于競享實例的快速擴容與成本優(yōu)勢,引擎可以短時間生成超大規(guī)模AI(Actor)同時執(zhí)行更多的策略,縮短模擬時間。而憑借競享實例的強勁性能(全系C類型)該引擎訓(xùn)練一天相當(dāng)于人類玩家打10萬年。
圖1 人工智能應(yīng)用架構(gòu)圖
Learner:學(xué)習(xí)集群,一般是多個GPU顯卡組成訓(xùn)練集群
Actor:采用競享實例提供CPU,每個線程作為一個AI玩家,用于測試策略的執(zhí)行效果
Policy:Learner的輸出結(jié)果,游戲AI的策略
Reward:Actor的執(zhí)行結(jié)果的反饋,提供給Learner
大數(shù)據(jù)分析學(xué)習(xí)課程與認(rèn)證
課程結(jié)合實踐,借助配套的實驗環(huán)境,一站式學(xué)練考,輕松Get新知識
大數(shù)據(jù)分析與應(yīng)用知識圖譜
包含大數(shù)據(jù)入門、大數(shù)據(jù)分析、大數(shù)據(jù)平臺應(yīng)用、大數(shù)據(jù)分析工具講解等相關(guān)課程及培訓(xùn)內(nèi)容
-
大數(shù)據(jù)在線課程學(xué)習(xí)
初學(xué)者入門課程
初學(xué)者入門課程
-
大數(shù)據(jù)權(quán)威職業(yè)認(rèn)證
HCIP-Big Data Developer
HCIP-Big Data Developer
-
大數(shù)據(jù)場景微認(rèn)證
包括初級和中級認(rèn)證
包括初級和中級認(rèn)證
-
HCIP-Big Data DeveloperHCIP-Big Data Developer