皇璽會000013: INSIDE 硬塞的網路趨勢觀察棋王柯潔再度不敵 AI！這次輸給騰訊「絕藝」還被讓兩子皇璽會 http://www.iwin688.com

2018年1月20日星期六

INSIDE 硬塞的網路趨勢觀察棋王柯潔再度不敵 AI！這次輸給騰訊「絕藝」還被讓兩子皇璽會 http://www.iwin688.com

Photo Credit: Reuters

本文來自合作媒體雷鋒網，INSIDE 授權轉載，文中許多用語皆為中國用法，為呈現原汁原味，讓讀者瞭解中國網路發展之現況，本文不刻意編輯為台灣用語。

2018 年 1 月 17 日晚八點半，在騰訊野狐圍棋平台的 1059 號對弈房，迅速聚集了 7000 多名圍觀棋友。如此火爆，只因這裡正發生著一場圍棋史上極為罕見的對弈——作為國際圍棋界職業頂尖棋手，而且是最頂尖的那個，柯潔首次在公開對戰中成為被讓子的一方，而且是讓二子（黑帖 6 目半）。

與柯潔對弈的是騰訊 AI Lab 研發的圍棋 AI「絕藝」（絕藝指導 A）。但是很快，儘管被讓二子，柯潔仍在第 77 手或許是對自己的表現太過不滿而直接認輸。這場意義重大的對決，就這樣猝然終結。

隨後，超級銀冠棋手劍過無聲（連笑九段）登場挑戰「絕藝」，但苦戰 247 手後仍然無奈認輸。

▲「絕藝」對弈柯潔九段（即「潛伏」）和連笑九段（即「劍過無聲」）。對弈中，柯潔追殺白棋右上未果，僅弈 77 手，便爽快認輸；一個小時後連笑九段跟進，鏖戰 247 手後中盤告負

圍棋界的人士可能對「絕藝」的大名已經耳熟能詳了；而非圍棋界的人士，可能還不是很瞭解此「中國狗」。

相比於日本的 DeepZenGo 和英國的 AlphaGo，中國在 Computer Go（電腦圍棋）的投入起步較晚。騰訊公司從 2016 年 2 月才開始著手研制圍棋 AI。但很快，「絕藝」人工智能的第一個版本便於 2016 年 3 月 4 日完成了。

隨後，「絕藝 AI」在騰訊圍棋的野狐平台上開設了多個賬號，包括虎虎有生氣、野狐掃地僧、天下無狗 20、絕藝、驪龍、刑天等。其中「絕藝」賬號使用時間最久，對弈盤數最多，名氣也最大。目前在野狐平台上有「絕藝指導」A、B、C、D 等各個小號，分別用於對弈不同段位的棋手。

「絕藝」藝名來源：

重送絕句（杜牧）

絕藝如君天下少，閒人似我世間無。

別後竹窗風雪夜，一燈明暗覆吳圖。

雖然起步晚，但是絕藝 AI 發展卻很快。僅僅經過 4 個月的時間，在 2016 年 6 月下旬，絕藝已經突破了業餘 6 段；同年 8 月便開始在騰訊旗下的野狐圍棋網絡對弈平台測試，8 月 23 日首次戰勝職業棋手，11 月 2 日第一次戰勝世界冠軍江維傑，11 月 19 日首次交手柯潔取勝。

絕藝第一次大範圍引起關注，是 2017 年 3 月初在野狐平台上晉升為「十段」高手。但實際上在此之前，它已經戰勝了包括韓國圍棋國手古力、連笑、樸廷桓等高手；甚至在 2 月 14 日至 2 月 24 日期間，和柯潔交手十次，無一敗績。

隨後，絕藝在 2017 年 3 月 18-19 日的第 10 屆 UEC 杯世界電腦圍棋大會上戰勝了當時電腦圍棋界的「第二」AI——DeepZenGo，奪得冠軍。由於這次奪冠，絕藝獲得了參加第 5 屆電聖戰的資格，在 2017 年 3 月 26 日對弈來自日本棋院的新銳棋手一力遼，並執黑 157 手中盤勝。

事情總是無挫不勇。2017 年 8 月在鄂爾多斯舉辦的中國圍棋大會首屆世界智能圍棋公開賽上，「絕藝」半決賽對弈 DeepZenGo 不幸落敗，未能進入決賽。此役之後，「絕藝」臥薪嘗膽，不斷迭代。

2017 年 11 月 15 日野狐平台上出現了一個暱稱為「符合預期」的賬號，數日內鏖戰 99 局，除了第 40 局被柯潔擊敗外，余者全勝。同時「符合預期」還對戰了絕藝指導 A（UEC 杯奪冠版），在讓二子的情況下，以 60 連勝完成版本升級。

12 月 10 日在日本秋葉原舉辦的 2017 圍棋龍星戰（AI RYUSEI）決賽中，升級版「絕藝」相繼以平穩的表現戰勝 MayoiGo、Raynz 和 AQ，並在決賽中再會老對手 DeepZenGo 並輕鬆獲勝。知名棋手劍過無聲（連笑）甚至評論說「絕藝可讓 Zen 兩子」。

進入 2018 年後，從本月 9 日開始，裝備了最強公開版本的「絕藝」（野狐平台賬號為「絕藝指導 A」），開始了讓二子（黑帖 6 目半）對決職業棋手的行程。截止到與柯潔對弈前，事實上「絕藝」已經與職業棋手對弈了 31 局 27 勝 4 負。與柯潔和連笑的兩場讓二子對弈更是讓這輪對決的意義推上了巔峰。

圍棋 AI 對弈中讓二子的問題騰訊 AI Lab 做了以下回應：

包括 AlphaGo 在內的圍棋 AI 都存在贏棋退讓的問題，原因是 AI 以贏棋為目標，勝率過高時下哪裡都贏，不一定會選擇贏最多的下法。

而讓子棋就是另外一種勝率過低的極端情況，以絕藝海南挑戰賽版本為例，這是一個分先版本的 AI，如果要求其以讓 2 子開始對局，則初始勝率為 7%（讓 3 子則初始勝率 1%，讓 4 子則初始勝率 0.1%）。並且實力越強的版本，下讓子棋時的初始勝率就越低（因為 AI 下棋時會假設對手跟自己一樣）。

初始勝率過低將導致 AI 不能發揮出真正的實力，這也是現在絕藝讓 2 子還不能全勝的原因。我們最近在嘗試優化算法，來解決勝率過低帶來的負面影響，爭取以後在讓子棋里有更好的表現。

據騰訊 AI Lab 的公開新聞介紹，此次與柯潔等職業棋手對弈的「絕藝」挑戰賽版，參考了 2017 年 10 月公開的 AlphaGo Zero 論文，並在實踐中做出了改進；使用了 40 block dual-resnet 模型，以老版本的「絕藝」為基礎進行強化學習，自對弈了數百萬棋局，在有限的資源和時間內，通過把強化學習和監督學習相結合來加速訓練，快速提升了棋力。

為了瞭解「絕藝」如此迅猛發展背後的技術細節，特地採訪了「絕藝」團隊的成員。

問：這次「絕藝」在與柯潔、連笑等職業選手的對弈中，均取得不錯的成績。請問柯潔等職業棋手是否參與了「絕藝」的開發？在「絕藝」的成長中他們起到了什麼樣作用？

答：柯潔沒有參與絕藝的開發，但是柯潔等幾十位職業棋手可以使用絕藝內測網站，「絕藝」也在騰訊野狐圍棋上與棋手對弈，所以很多棋手共同見證了整個「絕藝」的成長過程。

羅洗河九段是絕藝的技術顧問，給絕藝團隊圍棋技術方面的指導。

問：通過您們的新聞瞭解到，這個版本的絕藝技術上主要參考了 2017 年 10 月份 deepmind 發表的關於 AlphaGo Zero 的文章。您們對這篇文章的內容怎麼評價？在具體實踐中，您們做了哪些方面的改進？

答：AlphaGo Zero 是非常讓人震撼的研究成果，除了讓圍棋水平達到一個新的高度，它還不依賴人類知識，讓 zero 的算法具備更高的推廣價值。

絕藝學習了 Zero 的 dual-resnet 模型，和絕藝老版本相比有更高效的強化學習算法。因為絕藝還在不斷參加比賽進行鍛鍊，比如 2017 年 12 月騰訊棋牌的「絕藝挑戰賽」等，所以我們沒有選擇從「零」開始，而是以絕藝老版本為基礎進行強化學習。這樣可以大幅減少訓練時間，在有限的資源和時間內完成。目前我們已經在開發從零開始的版本了。

問：相比 11 月底的「符合預期」以及 12 月中旬的「絕藝」，挑戰賽版的「絕藝」有哪些方面的改進？開發這個版本的「絕藝」花費了多少時間？

答：絕藝近期公開亮相的三個版本之間的主要差異：

2017 年 11 月符合預期：20 block dual-resnet，自對弈了數十萬棋局
2017 年 12 月日本 AI 龍星戰：20 block dual-resnet，自對弈了數百萬棋局
2017 年 12 月三亞絕藝挑戰賽：40 block dual-resnet，自對弈了數百萬棋局

從 10 月下旬開始，用了 1 個多月時間完成了上述三個版本的開發。

問：「絕藝」在多個比賽中戰勝了國際上一些歷史悠久的電腦圍棋，請問與 DeepZenGo 等電腦圍棋相比，「絕藝」有哪些方面的優勢和不足？（例如技術、理念、團隊等）

答：我們很難簡單把「絕藝」和其他圍棋 AI 進行比較，如果回顧「絕藝」從研發到成長過程中，始終與柯潔、古力和騰訊圍棋上的職業和業餘棋手密切交流與切磋。

問：「絕藝」團隊已經在「絕藝」的研發上做了很久的工作，請問您們對「絕藝」的定位是什麼？現在絕藝已經達到能夠讓二子與人類的職業選手進行比賽了。再開發下去的意義在哪？

答：我們認為在研究、應用和社會價值上，「絕藝」都有其特定意義。

圍棋 AI 研究由來已久，相關的算法也不斷推陳出新。「絕藝」涵蓋了人工智能最熱門的研究領域——深度學習和強化學習，我們在不斷研發中受益良多。

從應用價值上，騰訊野狐圍棋是中國最大、最活躍的的圍棋平台之一，「絕藝」目前已經有還開發了指導棋、棋賽講解等功能，也深受廣大棋迷喜愛和關注。

而在社會意義上，我們看到 AI 的每一次進步，不僅挖掘圍棋的潛力與邊界，也在展現著人類的智慧與進步。這也是 AI Lab 對於絕藝的期待——希望它能與人類棋手積極互動，從而激發更多關注並傳承圍棋這一中國傳統文化。這是我們的一種科技責任感。

問：在去年三月份 UEC 世界杯大賽中的絕藝總體框架遵循的是 AlphaGo 在 2017 年 1 月份發表的文章；而這次則主要依據 2017 年 10 月份 AlphaGo Zero 的文章。現在 Deepmind 已經不再繼續開發 AlphaGo 了。所以您們打算以後如何進一步開發絕藝的性能呢？

答：絕藝會一直堅持開發下去，除了不斷提高棋力，我們也會研究解決一些有趣的問題，比如現在的 AI 以獲勝為目標，勝率過高時可能會退讓，不一定會選擇最優的下法。

騰訊將繼續加大對 AI 的研究與投入，打造世界級圍棋 AI 能力與推廣，更在 AI 上推進深度學習等前沿 AI 科技的研究與應用。

from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2mTSqs4

更多資訊 http://www.iwin688.com