2017年12月26日 星期二

INSIDE 硬塞的網路趨勢觀察 專訪 KKTV 資料競賽團隊:辦比賽,得像新創公司一樣經營! 皇璽會 http://www.iwin688.com

無論發起方規模大小,只要有好題目、好資料與好解法,資料探勘競賽不僅是工程師與駭客們彼此切戳的絕佳場景,也一直都是充滿活力,十分受用的創新途徑。但對一間企業而言,資料探勘競賽到底怎麼深化到組織內部,成為更深層也更有趣的創新動能呢?單單今年就一連舉辦四次,把「辦比賽」當作新創公司在經營的 KKTV、KKStream 或許就是好例子。

我們這次專訪到資深技術總監官順暉、資料科學家羅經凱、工程師莊鐵鴻與專案副理徐小涵,來談談 KKTV 怎藉由縝密的專案執行,讓資料競賽不只發揮了開發功能,甚至還進一步成為提升團隊全體技術水準的最佳媒介。

辦比賽就是在辦新創

「團隊雖然小,但我們完全把整回事(資料探勘競賽)當作在營運一間公司。」官順暉在訪談剛開始,就把成員列舉成新創公司的各主管一一介紹:他自己負責目標設定、資源調配與對外溝通,顯然是 CEO 的角色;怎麼籌劃整件事進行則是資料科學家羅經凱博士的工作,是 COO。

辦比賽有很多細節,像資料怎麼整理?比賽題目怎麼訂?要設定什麼環境?那就是由精通機器學習的 CTO 莊鐵鴻跟羅經凱一起討論了。最後 KKTV 那麼大,那該怎麼使資料競賽都能讓每位同事都能一起參與進來?所以就有了負責「行銷」的 CMO 徐小涵。

你或許看到這裡就會想問了:不過是辦個資料探勘競賽,有必要這麼煞有其事,這麼花功夫嗎?官順暉倒反過來說明:「單單只用舉辦一場『活動』,就讓(包括非技術職)同事們資料怎麼使用,甚至讓大家積極參與,這件事沒那麼容易。」從此不難窺見:像 KKTV 乃至 KKBOX 集團這種大型組織,若要真有效集合全體能量,就算是這種「有趣」的活動,縝密規劃仍不可少。

不只獲得開發成果,同仁技術水平也有顯著提升

那 KKTV 究竟是為了什麼舉辦資料探勘競賽呢?羅經凱說明原因分一遠程,一近端。放遠來看,KKTV 與 KKStream 畢竟是網路科技公司,同仁們也都知道「資料分析」是最重要也是最熱門的技術趨勢,但該怎麼落實到每位同仁手上?舉辦比賽就成了最有趣的路徑之一,而另一個近端原因就是 KKTV 想快速開發精準有效的推薦系統。

▲KKTV 資料科學家羅經凱博士之前在 KKBOX 就有豐富的資料分析經驗

因此他們在第一次、第二次競賽在 Kaggle 上釋出去識別化,連續三個月的使用者觀影資訊,其中包括觀看的時間點、時長,以及使用者所在的地區、國家,以及他們看的劇名、劇種;題目就是「推坑好劇,由你決定」,要從七百多部劇中,去猜七萬名使用者每個人下個月所看的劇。有點意外的是,第一次對內比賽居然是由懂機器學習,用 Random Forests 的在學生獲得冠軍,擊敗了眾多工程師。

莊鐵鴻補充第一次比賽有一隊由三位不會寫程式的 PM 所組成,居然用 EXCEL 也拿下了不錯成績!只可惜 EXCEL 算力終究有限,但這無疑為官順暉、羅經凱、莊鐵鴻等人感到窩心,讓他們覺得在公司舉辦資料競賽的方向確實可行。歷經了兩次競賽,KKTV 後來真依照其結果在七月實裝了頗為有效的推薦系統。

第三、第四次則是加入了「時間點」要素,一口氣釋出了上千萬筆去識別化的使用者資料,其中不只有從註冊至今的觀影行為,就連是用哪隻手機、桌機還是平板,甚至是用 Wi-Fi 還是 4G 都含括在內,請參賽者根據過去行為,推算使用者在未來一週內的看劇時段;往後運用在 KKTV 上,就是做出精準有效率的推播系統。在第四次最終公開賽,前三名 Leader board 成績幾乎達到了 0.893(也就是命中率 89.3%)之水準。

▲KKTV 後來真依資料競賽結果,七月實裝了頗為有效的推薦系統

機器學習如何在探勘競賽中發威?舉辦方又該怎麼整理資料?

莊鐵鴻分享了一個小插曲:在第三次比賽中,KKTV 內部有個團隊堅持用各種先期假設的演算法挑戰機器學習,但後來果然成績不敵機器學習的團隊,比賽後一轉態度,認真研究機器學習去了。「經過這次我們更深刻理解:現在很多事情已經無法靠 Domain Knowledge 解決,大家必須積極擁抱機器學習的時候到了。」像第一、第三名採用了 Gradient Boosting,第二名也就是莊鐵鴻自己則是用 CNN 卷積神經網路。

而第四次公開賽甚至吸引了來自趨勢、富士康、微軟等知名 IT 公司的高手參加,甚至有位大學教授在 Kaggle 只用十次解答,在最後一刻獲得了第三名。

談到資料探勘競賽,就不得不談談「資料品質」的話題。莊鐵鴻認為準備資料最重要的環節就在於這些資料到底能不能與問題的邏輯相符,然後再將其清乾淨並去識別化。官順暉補充 2007 年 Netflix 也辦過一次資料比賽,但去識別化後的資料竟然被參賽者反推成功,從此成為舉辦競賽的一次反例。所以提供給參賽者的資料不僅理所當然得把敏感個資去掉,就連使用者與影片的 ID 都要以亂數重新遮蓋,觀看時間也是整段平移了。

那明年 KKTV 還要繼續辦嗎?官順暉與羅經凱回答:當然要囉!事實上他們很享受跟資料高手過招、交流的過程,徐小涵也表示明年想擴大事後交流規模,成為資料圈中類似於創業小聚的常態性活動。「題目方面我們也不缺啦,資料能做的事太多了」羅經凱笑稱,接下來想湊合學界與業界做成 Workshop 的形式,讓台灣資料科學的大家都能正向成長。



from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2DkaZMV










沒有留言:

張貼留言