大數(shù)據(jù)分析
人工智能應(yīng)用
場(chǎng)景概述
2016年AlphaGo橫空出世,4:1戰(zhàn)勝李世石,17年又以3:0戰(zhàn)勝世界圍棋冠軍柯潔,此后三年,星際,Dota2,德州撲克等均涌現(xiàn)出超高水平AI。人工智能應(yīng)用在其中起到了不可替代的作用。
游戲智能體通常采用深度強(qiáng)化學(xué)習(xí)方法,從0開(kāi)始,通過(guò)與環(huán)境的交互和試錯(cuò),學(xué)會(huì)觀察世界、執(zhí)行動(dòng)作、合作與競(jìng)爭(zhēng)策略。每個(gè)AI智能體是一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,主要包含如下步驟:
1、通過(guò)GPU分析場(chǎng)景特征(自己,視野內(nèi)隊(duì)友,敵人,小地圖等)輸入狀態(tài)信息(Learner)。
2、根據(jù)策略模型輸出預(yù)測(cè)的動(dòng)作指令(Policy)。
3、通過(guò)CPU單線程模擬玩家,每個(gè)玩家(Actor)執(zhí)行不同的策略。
4、不同策略對(duì)應(yīng)不同結(jié)果,不同結(jié)果產(chǎn)生不同的Reward(獎(jiǎng)勵(lì)分?jǐn)?shù))。
5、該獎(jiǎng)勵(lì)分?jǐn)?shù)作為參數(shù)用來(lái)更新策略模型,再進(jìn)行新一輪學(xué)習(xí)。
客戶(hù)瓶頸
1、實(shí)時(shí)性與長(zhǎng)期性:AI不僅要做出實(shí)時(shí)的操作決策,還要做出長(zhǎng)期的規(guī)劃決策,通常對(duì)于游戲時(shí)間30分鐘左右的STG游戲,對(duì)應(yīng)的決策步數(shù)(Policy)超過(guò)7000步,這意味著Actor執(zhí)行Policy的時(shí)間成本較高。
2、復(fù)雜的動(dòng)作空間:玩家需要同時(shí)操作移動(dòng)方向、視角方向、攻擊、姿態(tài)(站、蹲、趴、跳、跑)、交互(救人、拾取、換彈)等操作,產(chǎn)生復(fù)雜的組合動(dòng)作空間,可行動(dòng)作數(shù)量在10^7量級(jí)。對(duì)于CPU計(jì)算能力要求較高。
3、訓(xùn)練任務(wù)快速部署:客戶(hù)進(jìn)行AI強(qiáng)化學(xué)習(xí)時(shí),需要短時(shí)間(10mins)拉起上萬(wàn)核CPU,對(duì)動(dòng)態(tài)擴(kuò)容能力要求較高。
競(jìng)享實(shí)例的應(yīng)用
該AI學(xué)習(xí)引擎采用競(jìng)享實(shí)例提供CPU資源。得益于競(jìng)享實(shí)例的快速擴(kuò)容與成本優(yōu)勢(shì),引擎可以短時(shí)間生成超大規(guī)模AI(Actor)同時(shí)執(zhí)行更多的策略,縮短模擬時(shí)間。而憑借競(jìng)享實(shí)例的強(qiáng)勁性能(全系C類(lèi)型)該引擎訓(xùn)練一天相當(dāng)于人類(lèi)玩家打10萬(wàn)年。
圖1 人工智能應(yīng)用架構(gòu)圖

Learner:學(xué)習(xí)集群,一般是多個(gè)GPU顯卡組成訓(xùn)練集群
Actor:采用競(jìng)享實(shí)例提供CPU,每個(gè)線程作為一個(gè)AI玩家,用于測(cè)試策略的執(zhí)行效果
Policy:Learner的輸出結(jié)果,游戲AI的策略
Reward:Actor的執(zhí)行結(jié)果的反饋,提供給Learner
重定向廣告推廣
場(chǎng)景概述
重定向廣告(Retargeting)是一種基于應(yīng)用、網(wǎng)頁(yè)廣告的定向技術(shù),即針對(duì)廣告受眾(Audience)的瀏覽行為進(jìn)行分析,在同一個(gè)廣告位,推送為該用戶(hù)定制的廣告,實(shí)現(xiàn)千人千面。
客戶(hù)瓶頸
重定向廣告推廣最終目的是將訪問(wèn)者轉(zhuǎn)變?yōu)橄聠慰蛻?hù),是帶動(dòng)全球在線企業(yè)營(yíng)收的主要因素之一。為了有效服務(wù)于廣告,在極快的響應(yīng)時(shí)間內(nèi)實(shí)時(shí)中標(biāo),并通過(guò)自動(dòng)化確保系統(tǒng)迅速響應(yīng)競(jìng)價(jià),廣告推廣商必須能夠根據(jù)業(yè)務(wù)壓力靈活快速并且成本可控地增加容量。
競(jìng)享實(shí)例的應(yīng)用
客戶(hù)使用包周期實(shí)例作為常規(guī)容量提供服務(wù),在業(yè)務(wù)高峰時(shí),得益于競(jìng)享實(shí)例低成本及快速擴(kuò)縮容特性,競(jìng)享實(shí)例為系統(tǒng)提供可變?nèi)萘恳詰?yīng)對(duì)流量洪峰。自動(dòng)化是這項(xiàng)業(yè)務(wù)的關(guān)鍵,所以客戶(hù)需要進(jìn)行業(yè)務(wù)容錯(cuò)性改造,實(shí)現(xiàn)任何一個(gè)或一些實(shí)例出現(xiàn)故障(被回收)時(shí),可自行替換并繼續(xù)運(yùn)行,無(wú)需任何人工干預(yù)。
大數(shù)據(jù)分析基礎(chǔ)課程
通過(guò)體系化的大數(shù)據(jù)培訓(xùn)課程,可以幫助您快速完成學(xué)習(xí)覆蓋,讓您輕松了解大數(shù)據(jù)分析、大數(shù)據(jù)平臺(tái)應(yīng)用、什么是大數(shù)據(jù)