皇璽會000013: INSIDE 硬塞的網路趨勢觀察 AlphaZero 完爆前輩 AlphaGo Zero，還贏了其他西洋棋和象棋最強的 AI！皇璽會 http://www.iwin688.com

2017年12月7日星期四

INSIDE 硬塞的網路趨勢觀察 AlphaZero 完爆前輩 AlphaGo Zero，還贏了其他西洋棋和象棋最強的 AI！皇璽會 http://www.iwin688.com

本文獲合作媒體極客公園授權轉載。

Google 旗下人工智慧公司 DeepMind 發布了一篇新論文「Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm」，它講述了團隊如何利用 AlphaGo 的機器學習系統，構建了新的項目 AlphaZero。AlphaZero 使用了名為「強化學習」（reinforcement learning）的 AI 技術，它只使用了基本規則，沒有人的經驗，從零開始訓練，橫掃了棋類遊戲 AI。

AlphaZero 首先征服了圍棋，又完爆其他棋類遊戲：相同條件下，該系統經過 8 個小時的訓練，打敗了第一個擊敗人類的 AI——李世乭版 AlphaGo；經過 4 個小時的訓練，打敗了之前最強西洋棋 AI Stockfish，2 個小時打敗了最強象棋 AI Elmo。連最強圍棋 AlphaGo 也未能倖免，訓練 34 個小時的 AlphaZero 勝過了訓練 72 小時的 AlphaGo Zero。

AlphaZero 在比賽中贏，平局或輸的局數（來自 DeepMind 團隊論文）

強化學習這麼強大，它是什麼？

知名 AI 部落格作者 Adit Deshpande 來自加州大學洛杉磯分校（UCLA），他曾在部落格中發表過「深度學習研究評論」系列文章，解讀了 AlphaGo 勝利背後的力量。他在文章中介紹到，機器學習領域可以分為三大類：監督學習、無監督學習和強化學習。強化學習可以在不同的情景或者環境下學習採取不同的行動，以此來獲得最佳的效果。

Adit Deshpande 的《Deep Learning Research Review Week 2: Reinforcement Learning》

我們想像一個小房間裡的一個小機器人。我們沒有透過程式要這個機器人走路或採取任何行動，它只是站在那裡。我們希望它移動到房間的一個角落，走到那裡會得到獎勵分數，每走一步將會損失分數。我們希望機器人盡可能到達指定地點，機器人可以向東、南、西、北四個方向運動。機器人其實很簡單，什麼樣的行為最有價值呢，當然是指定地點。為了獲得最大的獎勵，我們只能讓機器人採用最大化價值的行動。

Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

AlphaZero 完爆棋類遊戲 AI，它的價值有多大？

AlphaGo Zero 是個突破性的進展，AlphaZero 也是嗎？國外專家分析，後者在技術上有四點突破：

一、AlphaGo Zero 根據勝率進行優化，只考慮勝、負兩種結果；而 AlphaZero 則是根據結果進行優化，考慮到了平局等可能。

二、AlphaGo Zero 會改變棋盤方向進行強化學習，而 AlphaZero 則不會。圍棋的棋盤是堆成的，而西洋棋和象棋則不是，因此 AlphaZero 更通用。

三、AlphaGo Zero 會不斷選擇勝率最好的版本替換，而 AlphaZero 則只更新一個神經網絡，減少了訓練出不好結果的風險。

四、AlphaGo Zero 中搜尋部分的超參數是通過貝葉斯優化得到的，選取會對估計結果產生很大影響。而 AlphaZero 所有對弈都重複使用相同的超參數，因此無需針對遊戲進行特定調整。

專家也表示，AlphaZero 有突破也有局限：

一、DeepMind 這篇論文核心是證明了 AlphaGo Zero 策略在棋類問題上的通用性；在方法上並沒有特別亮眼的地方。AlphaZero 其實是 AlphaGo Zero 策略從圍棋往其他類似棋類遊戲的拓展版，並戰勝了基於其他技術的棋類遊戲 AI，它們在此之前是最好的。

二、AlphaZero 也只是解決規則明確、完美資訊博弈的類似棋類遊戲的「通用」引擎，對於更複雜的其他問題，AlphaZero 依然會遇到困難。

此前，曠世科技孫劍解讀 AlphaGo Zero 時曾表示，「強化學習就算可以擴展很多別的領域，用到真實世界中也沒有那麼容易。比如說強化學習可以用來研究新藥品，新藥品很多內部的結構需要通過搜尋，搜尋完以後製成藥，再到真正怎麼去檢驗這個藥有效，這個閉環代價非常昂貴，非常慢，你很難像下圍棋這麼簡單做出來。」

三、AlphaZero 也需要非常多的計算資源才能解決相對更為「簡單」的棋類問題，成本非常高。DeepMind 在論文中表示，他們使用了 5000 個第一代 TPU 生成自對弈棋譜，並用了 64 個第二代 TPU 來訓練神經網絡。之前有專家向某媒體表示，TPU 雖然性能很驚艷，但是成本也會很高，有國際風投機構的投資人說過其中的一句話就是：「這麼貴的晶片，我也就是看看......」

四、目前的 AlphaZero 在圍棋上離「圍棋上帝」可能還有距離，贏了人不代表就是上帝，目前的網絡結構、訓練策略是不是最優的，其實還是值得進一步研究的。

雖然有一定的局限，但其應用場景值得深挖。在讓機器學習更為通用的研究方向上，有很多其他研究領域值得關注，比如 AutoML、遷移學習等等。同時，如何進一步以更少的代價（計算代價、領域專家代價）獲得更為通用的 AI 引擎，讓 AI 在實際應用中產生更大的價值也是非常值得關注的。

電腦真正可以思維的「強」人工智慧（通用人工智慧），其實是想實現「從 0 到 1」的突破，而目前包括工業界和電腦應用科學等領域，其實只是想讓計算機的行為表現像智慧一樣，這可以稱為「從 1 到 N」。

但是，科學家們一直在不斷探索通用人工智慧。DeepMind 就是這方面的先行者之一，好像登山一樣，只要一步步攀登，有一天人類必然登頂。

from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2BdjFrn

更多資訊 http://www.iwin688.com