本文來自合作媒體 雷鋒網 ,INSIDE 授權轉載,文中許多用語皆為中國用法,為呈現原汁原味,讓讀者瞭解中國網路發展之現況,本文不刻意編輯為台灣用語。
2018 年 1 月 17 日晚八點半,在騰訊野狐圍棋平台的 1059 號對弈房,迅速聚集了 7000 多名圍觀棋友。如此火爆,只因這裡正發生著一場圍棋史上極為罕見的對弈——作為國際圍棋界職業頂尖棋手,而且是最頂尖的那個,柯潔首次在公開對戰中成為被讓子的一方,而且是讓二子(黑帖 6 目半)。
與柯潔對弈的是騰訊 AI Lab 研發的圍棋 AI「絕藝」(絕藝指導 A)。但是很快,儘管被讓二子,柯潔仍在第 77 手或許是對自己的表現太過不滿而直接認輸。這場意義重大的對決,就這樣猝然終結。
隨後,超級銀冠棋手劍過無聲(連笑九段)登場挑戰「絕藝」,但苦戰 247 手後仍然無奈認輸。
▲「絕藝」對弈柯潔九段(即「潛伏」)和連笑九段(即「劍過無聲」)。對弈中,柯潔追殺白棋右上未果,僅弈 77 手,便爽快認輸;一個小時後連笑九段跟進,鏖戰 247 手後中盤告負圍棋界的人士可能對「絕藝」的大名已經耳熟能詳了;而非圍棋界的人士,可能還不是很瞭解此「中國狗」。
相比於日本的 DeepZenGo 和英國的 AlphaGo,中國在 Computer Go(電腦圍棋)的投入起步較晚。騰訊公司從 2016 年 2 月才開始著手研制圍棋 AI。但很快,「絕藝」人工智能的第一個版本便於 2016 年 3 月 4 日完成了。
隨後,「絕藝 AI」在騰訊圍棋的野狐平台上開設了多個賬號,包括虎虎有生氣、野狐掃地僧、天下無狗 20、絕藝、驪龍、刑天等。其中「絕藝」賬號使用時間最久,對弈盤數最多,名氣也最大。目前在野狐平台上有「絕藝指導」A、B、C、D 等各個小號,分別用於對弈不同段位的棋手。
「絕藝」藝名來源:
重送絕句(杜牧)
絕藝如君天下少,閒人似我世間無。
別後竹窗風雪夜,一燈明暗覆吳圖。
雖然起步晚,但是絕藝 AI 發展卻很快。僅僅經過 4 個月的時間,在 2016 年 6 月下旬,絕藝已經突破了業餘 6 段;同年 8 月便開始在騰訊旗下的野狐圍棋網絡對弈平台測試,8 月 23 日首次戰勝職業棋手,11 月 2 日第一次戰勝世界冠軍江維傑,11 月 19 日首次交手柯潔取勝。
絕藝第一次大範圍引起關注,是 2017 年 3 月初在野狐平台上晉升為「十段」高手。但實際上在此之前,它已經戰勝了包括韓國圍棋國手古力、連笑、樸廷桓等高手;甚至在 2 月 14 日至 2 月 24 日期間,和柯潔交手十次,無一敗績。
隨後,絕藝在 2017 年 3 月 18-19 日的第 10 屆 UEC 杯世界電腦圍棋大會上戰勝了當時電腦圍棋界的「第二」AI——DeepZenGo,奪得冠軍。由於這次奪冠,絕藝獲得了參加第 5 屆電聖戰的資格,在 2017 年 3 月 26 日對弈來自日本棋院的新銳棋手一力遼,並執黑 157 手中盤勝。
事情總是無挫不勇。2017 年 8 月在鄂爾多斯舉辦的中國圍棋大會首屆世界智能圍棋公開賽上,「絕藝」半決賽對弈 DeepZenGo 不幸落敗,未能進入決賽。此役之後,「絕藝」臥薪嘗膽,不斷迭代。
2017 年 11 月 15 日野狐平台上出現了一個暱稱為「符合預期」的賬號,數日內鏖戰 99 局,除了第 40 局被柯潔擊敗外,余者全勝。同時「符合預期」還對戰了絕藝指導 A(UEC 杯奪冠版),在讓二子的情況下,以 60 連勝完成版本升級。
12 月 10 日在日本秋葉原舉辦的 2017 圍棋龍星戰(AI RYUSEI)決賽中,升級版「絕藝」相繼以平穩的表現戰勝 MayoiGo、Raynz 和 AQ,並在決賽中再會老對手 DeepZenGo 並輕鬆獲勝。知名棋手劍過無聲(連笑)甚至評論說「絕藝可讓 Zen 兩子」。
進入 2018 年後,從本月 9 日開始,裝備了最強公開版本的「絕藝」(野狐平台賬號為「絕藝指導 A」),開始了讓二子(黑帖 6 目半)對決職業棋手的行程。截止到與柯潔對弈前,事實上「絕藝」已經與職業棋手對弈了 31 局 27 勝 4 負。與柯潔和連笑的兩場讓二子對弈更是讓這輪對決的意義推上了巔峰。
圍棋 AI 對弈中讓二子的問題騰訊 AI Lab 做了以下回應:
包括 AlphaGo 在內的圍棋 AI 都存在贏棋退讓的問題,原因是 AI 以贏棋為目標,勝率過高時下哪裡都贏,不一定會選擇贏最多的下法。
而讓子棋就是另外一種勝率過低的極端情況,以絕藝海南挑戰賽版本為例,這是一個分先版本的 AI,如果要求其以讓 2 子開始對局,則初始勝率為 7%(讓 3 子則初始勝率 1%,讓 4 子則初始勝率 0.1%)。並且實力越強的版本,下讓子棋時的初始勝率就越低(因為 AI 下棋時會假設對手跟自己一樣)。
初始勝率過低將導致 AI 不能發揮出真正的實力,這也是現在絕藝讓 2 子還不能全勝的原因。我們最近在嘗試優化算法,來解決勝率過低帶來的負面影響,爭取以後在讓子棋里有更好的表現。
據騰訊 AI Lab 的公開新聞介紹,此次與柯潔等職業棋手對弈的「絕藝」挑戰賽版,參考了 2017 年 10 月公開的 AlphaGo Zero 論文,並在實踐中做出了改進;使用了 40 block dual-resnet 模型,以老版本的「絕藝」為基礎進行強化學習,自對弈了數百萬棋局,在有限的資源和時間內,通過把強化學習和監督學習相結合來加速訓練,快速提升了棋力。
為了瞭解「絕藝」如此迅猛發展背後的技術細節,特地採訪了「絕藝」團隊的成員。
問:這次「絕藝」在與柯潔、連笑等職業選手的對弈中,均取得不錯的成績。請問柯潔等職業棋手是否參與了「絕藝」的開發?在「絕藝」的成長中他們起到了什麼樣作用?
答:柯潔沒有參與絕藝的開發,但是柯潔等幾十位職業棋手可以使用絕藝內測網站,「絕藝」也在騰訊野狐圍棋上與棋手對弈,所以很多棋手共同見證了整個「絕藝」的成長過程。
羅洗河九段是絕藝的技術顧問,給絕藝團隊圍棋技術方面的指導。
問:通過您們的新聞瞭解到,這個版本的絕藝技術上主要參考了 2017 年 10 月份 deepmind 發表的關於 AlphaGo Zero 的文章。您們對這篇文章的內容怎麼評價?在具體實踐中,您們做了哪些方面的改進?
答:AlphaGo Zero 是非常讓人震撼的研究成果,除了讓圍棋水平達到一個新的高度,它還不依賴人類知識,讓 zero 的算法具備更高的推廣價值。
絕藝學習了 Zero 的 dual-resnet 模型,和絕藝老版本相比有更高效的強化學習算法。因為絕藝還在不斷參加比賽進行鍛鍊,比如 2017 年 12 月騰訊棋牌的「絕藝挑戰賽」等,所以我們沒有選擇從「零」開始,而是以絕藝老版本為基礎進行強化學習。這樣可以大幅減少訓練時間,在有限的資源和時間內完成。目前我們已經在開發從零開始的版本了。
問:相比 11 月底的「符合預期」以及 12 月中旬的「絕藝」,挑戰賽版的「絕藝」有哪些方面的改進? 開發這個版本的「絕藝」花費了多少時間?
答:絕藝近期公開亮相的三個版本之間的主要差異:
- 2017 年 11 月符合預期:20 block dual-resnet,自對弈了數十萬棋局
- 2017 年 12 月日本 AI 龍星戰:20 block dual-resnet,自對弈了數百萬棋局
- 2017 年 12 月三亞絕藝挑戰賽:40 block dual-resnet,自對弈了數百萬棋局
從 10 月下旬開始,用了 1 個多月時間完成了上述三個版本的開發。
問:「絕藝」在多個比賽中戰勝了國際上一些歷史悠久的電腦圍棋,請問與 DeepZenGo 等電腦圍棋相比,「絕藝」有哪些方面的優勢和不足?(例如技術、理念、團隊等)
答: 我們很難簡單把「絕藝」和其他圍棋 AI 進行比較,如果回顧「絕藝」從研發到成長過程中,始終與柯潔、古力和騰訊圍棋上的職業和業餘棋手密切交流與切磋。
問:「絕藝」團隊已經在「絕藝」的研發上做了很久的工作,請問您們對「絕藝」的定位是什麼?現在絕藝已經達到能夠讓二子與人類的職業選手進行比賽了。再開發下去的意義在哪?
答:我們認為在研究、應用和社會價值上,「絕藝」都有其特定意義。
圍棋 AI 研究由來已久,相關的算法也不斷推陳出新。「絕藝」涵蓋了人工智能最熱門的研究領域——深度學習和強化學習,我們在不斷研發中受益良多。
從應用價值上,騰訊野狐圍棋是中國最大、最活躍的的圍棋平台之一,「絕藝」目前已經有還開發了指導棋、棋賽講解等功能,也深受廣大棋迷喜愛和關注。
而在社會意義上,我們看到 AI 的每一次進步,不僅挖掘圍棋的潛力與邊界,也在展現著人類的智慧與進步。這也是 AI Lab 對於絕藝的期待——希望它能與人類棋手積極互動,從而激發更多關注並傳承圍棋這一中國傳統文化。這是我們的一種科技責任感。
問:在去年三月份 UEC 世界杯大賽中的絕藝總體框架遵循的是 AlphaGo 在 2017 年 1 月份發表的文章;而這次則主要依據 2017 年 10 月份 AlphaGo Zero 的文章。現在 Deepmind 已經不再繼續開發 AlphaGo 了。所以您們打算以後如何進一步開發絕藝的性能呢?
答:絕藝會一直堅持開發下去,除了不斷提高棋力,我們也會研究解決一些有趣的問題,比如現在的 AI 以獲勝為目標,勝率過高時可能會退讓,不一定會選擇最優的下法。
騰訊將繼續加大對 AI 的研究與投入,打造世界級圍棋 AI 能力與推廣,更在 AI 上推進深度學習等前沿 AI 科技的研究與應用。
from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2mTSqs4
沒有留言:
張貼留言