擊敗世界最佳玩家的撲克AI

撲克是策略和直覺的強大結合,這使其成為最具代表性的紙牌遊戲,並且機器難以掌握;瞭解更多線上撲克策略請點此。現在,由Facebook和卡內基·梅隆大學(Carnegie Mellon University)建立的AI首次在多人遊戲版本中擊敗了頂尖專業人士。

近年來,遊戲已被證明是AI的流行測試平台,當Google的AlphaGo破解了古老的中國棋盤遊戲Go時,這是該領域的分水嶺。但是AI經過測試的大多數遊戲都是所謂的“完美信息”遊戲。

由於Go如此復雜,您可以看到對手所有棋子的位置,並且理論上可以根據棋盤上當前棋子的配置來規劃出未來所有可能的移動順序。在撲克中,對手的手一直處於隱藏狀態,這使得預測他們可能採取的動作變得更加困難。

儘管如此,玩撲克的AI(包括由同一支團隊開發的名為Libratus的系統)已經掌握了兩個玩家的“無限制”撲克,其中的賭注沒有上限,這增加了複雜性。不過,最流行的撲克形式不是一場正面交鋒,它是針對整桌玩家,到目前為止,這已經超出了AI的範圍。

不過,現在,研究人員已經開發出一種AI,該機器人可以在六人無限德州撲克中勝出許多職業玩家。突破是遊戲AI的巨大勝利,但係統核心的技術可以應用到從軍事計劃到網絡安全的所有領域。

更多文章:調查權力法案對您和您的網際網路使用意味著什麼?

“到目前為止,戰略推理中的超人AI里程碑僅限於兩方競爭,”負責該系統設計的CMU計算機科學教授Tuomas Sandholm 表示。“在如此復雜的遊戲中擊敗其他五名玩家的能力為使用AI解決各種現實問題提供了新的機會。”

該系統的暱稱為Pluribus,該系統在《科學》雜誌的一篇新論文中進行了描述,該系統依賴於久經考驗的遊戲AI策略。它首先在一系列練習遊戲中復制了自己的六份副本,以建立如何玩遊戲的“藍圖”策略。但是,在第一輪下注之後,問題的複雜性增加了,因此它使用搜索算法來預測其他玩家可能會做的事情。

儘管這種方法在許多玩遊戲的AI中很常見,但係統通常會在遊戲結束前一直規劃替代期貨。有五個對手和這麼多隱藏的信息,這根本不切實際。

因此,研究人員設計了一種更有效的方法,該方法只看了幾步,並為每個對手及其本身考慮了四種潛在策略:系統已掌握的藍圖,以及對該藍圖的三處修改,使玩家偏向於折疊,跟注或抬高。

他們發現這種新方法足以勝過一些世界上最好的撲克玩家。首先,團隊讓Darren Elias保持了大多數世界撲克巡迴賽冠軍的記錄,而Chris“ Jesus” Ferguson贏得了六次世界撲克系列賽事的冠軍,與5,000手牌中的5份Pluribus比賽。

然後它與13位頂級職業玩家並肩作戰,他們全都贏得了超過100萬美元的撲克遊戲,與5個人超過10,000手的單人遊戲。在這兩種比賽形式中,它都取得了勝利。

Elias在CMU新聞稿中表示,該機的主要優勢在於其使用混合策略的能力。他說:“這是人類試圖做的事情。” “對於人類來說,這是執行的問題-以完全隨機的方式做到這一點,並且始終如一。大多數人做不到。”

最重要的突破之一是新方法的計算效率。在一台64核服務器上花了8天時間來學習該藍圖,該服務器可工作12400個CPU小時。相反,他們以前的Libratus系統花費了1500萬個核心小時進行培訓。

即使經過培訓,玩遊戲的AI通常也需要在超級計算機上執行。Libratus需要100個CPU,而AlphaGo在比賽中使用了多達1,920個CPU和280個GPU。Pluribus僅能在兩個CPU上運行。

雖然在撲克比賽中擊敗人類無疑是一種賺錢的方式,但桑霍爾姆已經分拆了兩家公司,以實際利用Libratus和Pluribus核心技術。

延伸閱讀:AI 終於能通過國中程度考試了,這意味著什麼?

2018年,他創立了一家名為Strategy Robot的初創公司,該公司已從美軍獲得了1000萬美元的合同,旨在使AI適應戰略計劃和軍事模擬。桑德霍姆(Sandholm)還啟動了第二家名為Strategic Machine的初創公司,它將採用相同的技術來應對遊戲,商業和醫學方面的問題。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *