皇璽會000013: INSIDE 硬塞的網路趨勢觀察 Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗皇璽會 http://www.iwin688.com

2017年10月18日星期三

INSIDE 硬塞的網路趨勢觀察 Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗皇璽會 http://www.iwin688.com

本文獲合作媒體雷鋒網授權轉載，作者岑大師。

AlphaGo「退役」了，但 Deepmind 在圍棋上的探索並沒有停止。

今年 5 月的烏鎮大會的「人機對局」中，中國棋手、世界冠軍柯潔 9 段以 0:3 不敵 AlphaGo。隨後 Deepmind 創辦人 Hassabis 宣布，AlphaGo 將永久退出競技舞台，不再進行比賽。

Hassbis 當時表示：「我們計劃在今年稍晚發布最後一篇學術論文，詳細介紹我們在演算法效率上所取得的一系列進展，以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣，我們希望更多的開發者能夠接過接力棒，利用這些全新的進展開發出屬於自己的強大圍棋程式。」

今天，Deepmind 如約在 Nature 發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》（不使用人類知識制霸圍棋）的論文中，Deepmind 展示了他們更強大的新版本圍棋程式「AlphaGo Zero」，驗證了即使在像圍棋這樣最具挑戰性的領域，也可以通過純強化學習的方法自我完善達到目的。

論文摘要

人工智慧的一個長期目標是通過後天的自主學習（注：tabula rasa，意為「白板」，指所有的知識都是逐漸從他們的感官和經驗而來），在一個具有挑戰性的領域創造出超越人類的精通程度學習的演算法。之前，AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式，當時的 AlphaGo 通過深層神經網路進行決策，並使用人類專家下棋的資料進行監督學習，同時也通過自我對弈進行強化學習。在這篇論文中，我們將介紹一種僅基於強化學習的演算法，而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師，這一神經網路被訓練用於預測 AlphaGo 自己的落子選擇，提高了決策樹搜尋的強度，使得落子品質更高，具有更強的自我對弈迭代能力。從一塊白板開始，我們的新程式 AlphaGo Zero 表現驚人，並以 100：0 擊敗了之前版本的 AlphaGo。

全新強化學習算法：無需任何人類指導

這篇論文的最大亮點，在於無需任何人類指導，通過全新的強化學習方式，人工智慧的程式自己成為自己的老師，在圍棋這一個最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據，這一個新的演算法訓練時間更短，僅用 3 天時間就達到了擊敗李世乭的 AlphaGo Lee 的水準，21 天就達到了之前擊敗柯潔的 AlphaGo Master 的水準。

在 3 天內——也就是 AlphaGo Zero 在擊敗 AlphaGo Lee 之前，曾進行過 490 萬次自我對弈練習。相比之下，AlphaGo Lee 的訓練時間長達數月之久。AlphaGo Zero 不僅發現了人類數千年來已有的許多圍棋策略，還設計了人類玩家以前未知的的策略。

據 Deepmind 部落格介紹，AlphaGo Zero 採用了新的強化學習方法，從一個不知道圍棋遊戲規則的神經網路開始，通過將這個神經網路與強大的搜尋演算法結合，然後就可以實現自我對弈了。在這樣的訓練過程中，神經網路不斷被更新和調整，並用於預測下一步落子和最終的輸贏。

[embedded content]

這一更新後的神經網路將再度與搜尋演算法組合，過程不斷重複，最後建立了一個新的、更強大版本的 AlphaGo Zero。在每次迭代中，系統的性能和自我對弈的品質均能夠有部分提高。「日拱一卒，功不唐捐」，最終的神經網路越來越精確，AlphaGo Zero 也變得更強。

AlphaGo Zero 與之前版本有如下不同：

AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入，而之前版本 AlphaGo 的輸入均包含部分人工特徵；
AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置，並使用另一個「價值網路」來預測遊戲的輸贏結果。而在 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行，從而使其可以更好地進行訓練和評估。
AlphaGo Zero 無需進行隨機推演（Rollout）——這是一種在其他圍棋程式中廣泛使用於勝負的快速隨機策略，從而通過比較確定每一手之後輸贏的機率，選擇最佳落子位置。相反地，它依賴於高品質的神經網路來評估落子位置。

上述差異均有主於提高系統的性能和通用性，但使最關鍵的仍是演算法上的改進，不僅使得 AlphaGo Zero 更加強大，在功耗上也更為高效。

AlphaGo 不同版本所需的 GPU/TPU 資源

雖然這一技術還處於早期階段，但 AlphaGo Zero 的突破使得我們在未來面對人類面對的一些重大挑戰（如蛋白質折疊、減少能源消耗、尋找革命性的新材料等）充滿信心。

眾所周知，深度學習需要大量的資料，而在很多情況下，獲得大量資料的成本過於高昂，甚至根本難以獲得。如果將該技術應用到其他問題上，將會有可能對我們的生活產生根本性的影響。

皇璽會000013

2017年10月18日星期三

INSIDE 硬塞的網路趨勢觀察 Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗皇璽會 http://www.iwin688.com

論文摘要

全新強化學習算法：無需任何人類指導

延伸閱讀：

【AI 要強就得開源】英國學者提 18 項戰略，催生世界最佳人工智慧孕育地

Google 簡立峰：AI 時代，如果你家有兩個小孩，一個出國賺錢，另一個把家裡照顧好

沒有留言:

張貼留言

2017年10月18日 星期三

INSIDE 硬塞的網路趨勢觀察 Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗 皇璽會 http://www.iwin688.com

論文摘要

全新強化學習算法：無需任何人類指導

延伸閱讀：

【AI 要強就得開源】英國學者提 18 項戰略，催生世界最佳人工智慧 孕育地

Google 簡立峰：AI 時代，如果你家有兩個小孩，一個出國賺錢，另一個把家裡 照顧好

沒有留言:

張貼留言

2017年10月18日星期三

INSIDE 硬塞的網路趨勢觀察 Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗皇璽會 http://www.iwin688.com

【AI 要強就得開源】英國學者提 18 項戰略，催生世界最佳人工智慧孕育地

Google 簡立峰：AI 時代，如果你家有兩個小孩，一個出國賺錢，另一個把家裡照顧好