2017年12月14日 星期四

INSIDE 硬塞的網路趨勢觀察 Google AI 中國中心正式成立,負責人李佳:AI 需要「四步走」! 皇璽會 http://www.iwin688.com

本篇來自合作媒體 雷鋒網 ,INSIDE 經授權轉載。

12 月 13 日,Google 中國開發者大會 2017 在上海召開,多名 Google 工程師和重量級嘉賓登台演講,宣布了許多振奮人心的消息,美國工程師的中文演講也讓現場聽眾覺得親切有趣。

最令廣大 AI 研究和從業者感興趣的,是 Google Cloud 首席科學家李飛飛宣布 Google AI 中國中心在北京成立,並且也正是由李飛飛和她曾經的博士生、現在的 Google Cloud 研發負責人李佳共同領導 Google AI 中國中心的工作。Google Cloud  AI、Google Brain 以及 Google 的中國團隊的工作也將由李飛飛統籌。

在李飛飛的主會場演講結束後,李飛飛和李佳來到分會場,和受邀請參與面對面溝通活動的學生、教授、AI 從業人員以及媒體進行了更多溝通和交流。

李佳也在現場進行了一個小演講,介紹了她帶領的 Google 研發團隊近期的一些研發思路和技術產品,主要內容整理如下:

李佳:很高興在這裡見到大家,我叫李佳。我是 Google Cloud AI 的研發主管,自己也是一個開發者,今天想在這分享一下 AI 研究的一些心得和 Google Cloud 團隊研發的 AI 的一些應用。

在過去的幾天裡我花了很多的時間練習用中文說話。這是我第一次用中文演講,如果有很多的英文或者是說英文的單詞,請大家諒解。我一度曾經想放棄,想用英文來講,但是今天看到有這麼多的我們外國的友人,在很拼命的用中文來講,我感到非常的慚愧。練習到昨天我還發覺,大概我的演講裡面大概 70% 的部分還是英文的單詞,但是我希望今天能做的更好一點。

今天我想講這個的原因是,作為一個開發者,我自己覺得很幸運,可以參與一個想法到成為一個完成產品的過程,所以我今天在這裡想給大家分享這樣的一個歷程。希望有更多的人投身到這樣過程當中,能夠促成 AI 產品的產生。我把這個過程叫做 AI Journey(AI 歷程)。

它有幾個主要的組成部分。

首先,不管我們想要做任何的 AI 也好,它總是從問題本身開始,我們想要發覺、發現哪一個問題值得去解決,這就是第一步。

有了這個問題以後,我們就會去升級,去考慮用什麼樣的方式來表現這個問題,這就是第二步。

一旦有了我們的數據過後,我們可以在數據上面有很多很多的應用,有很多的算法的創新。

最後一步就是一旦我們有了很好的算法過後,我們怎樣把它變得更好,更準確。經過了這些過程,它就會成為一個很成熟的產品技術。

定義目標

這個 AI 的歷程通常是從最初的問題定義開始,比如圖像分類識別。如果想從這個圖裡面識別出有個毛線團,這個問題的表達形式有很多種,它的解決方案也有各種各樣的。

從 ImageNet 數據集發表以後,很多的研究者在它上面去運行他們的算法,很大推動了這個領域的發展。最近我們自己在上面也有一些小的嘗試。

可能在座的同學們、老師們,你們有一些人可能聽說過 Neural Architecture Search(神經網路結構搜尋),這個就是我們最早的一些嘗試。開始是由我們研究的一個算法,最近我們 Google Cloud 和 Google 的其他的一些團隊,也在這上面做了一些新的嘗試。這個是什麼樣的算法呢?它會嘗試搜索、組合不同的基礎網路結構,形成一個完整的網路。它的最終目的,是想讓機器自動生成神經網路。圖中是一個例子,我們怎麼樣生成在 ImageNet 和 CIFAR 上有良好表現的神經網路。

現在在我們最新的嘗試裡面,這種機器生成的算法已經是頂級的了。但我想提醒大家的是,雖然這是一個很激動人心的技術發展成果,但是,目前這種機器生成的模型只局限於某一個特定的問題,是端到端的一種解決方案。但是在現實生活中,或者對於現實當中的問題,會涉及到許許多多不同技術的共同應用。在這個例子裡面,數據都是收集好的,但是在很多的情況裡面我們是沒有辦法收集數據的,比如說罕見的疾病,還有自然災害當中發生的問題,很多的數據是非常難以收集的,或者是收集起來非常危險的。

收集數據

這裡就有一個例子,在自動駕駛技術中我們根本沒有辦法去訓練算法如何應對交通事故,或者比較罕見遇到的交通情況,因為沒有這樣的數據。這種情況是否能有替代做法呢?我想提下這個模擬器的技術。這樣我們可以自由生成各種各樣的數據,來表現這些複雜的情況。

另外一個有名的例子就是 AlphaGo 和很多很多的遊戲,當我們對遊戲的規則非常明確了之後,就可以讓算法自己生成許多數據,然後從生成的數據中學習。

這個技術經常被用在遷移學習裡面,我們可能在原有領域有很多數據,但很難在新的領域收集同樣多的數據;這是其中一個問題。還有很多其它問題,比如說我們在 Google Cloud 上面遇到的很多問題,它們通常是沒有已知的解決辦法的,它們也沒有辦法找到這樣大量的數據。

我們這裡要解決的是一個小數據的問題,不是大數據的問題。在這個過程中,遷移學習、模擬器技術都是非常值得去研究去探索的,在能夠真正的解決實際問題之前,能夠達到我們希望的能夠處理任何情況之前,先用這樣的技術讓模型快速成長。

我們同時也能挖掘出一個很大的寶藏,機器人技術。比如說用模擬器的方法解決機器人技術的問題。

我當時和我的同事一起去把 Gazebo 平台的代碼收集好,開放給大家來用。我們自己在上面做了一些探索,發現如果我們把大量的問題放在裡面,就算不是從直覺上能完美解決好的問題,只要能夠把問題和大規模計算、大規模仿真模擬進行結合的話,實際上它還是能得到非常好的效果的。

設計算法

我剛才談到一些有關模擬器生成數據的探索,實際上算法也對這個領域至關重要,其中包含了怎麼樣有效讓我們人指導機器來進行學習。當然,讓機器學習也還有各種不同的辦法。

我剛才談到了幾個比較小的例子,都有什麼樣的問題是值得我們去解決的。而數據中蘊含的價值很多、數據的來源和用途很廣,我們實際需要數據相關技術來解決的問題比剛才我談到的還要更廣泛。舉一些簡單的例子,我們在 flickr 數據的數據清洗上面還是取得了一些令人振奮的結果。但是在這樣的技術上面,我們有很多的問題需要去解決。我們最終需要考慮的是其中有什麼樣的人、他們在做一些什麼樣的事情、裡面還有怎麼樣的內容、從一個時間段到下一個時間段有哪些變化、這個變化怎麼產生的。實際上我們作為數據領域的研究者還沒有特別多關注和投入在這些方面。

我剛才談到了機器人方面的很多問題,另外一個大的方向是自然語言。大家看到有很多的好玩的聊天機器人,是一種為了好玩的、隨意的聊天。但是在我們人和人之間,我們聊天的雙方或者是多方是有不同的背景的,整個聊天的過程是有一個希望達成的目的的。對話的目的的理解、利用和算法更新現在都做得不多。所以很多問題,很多聊天的問題是有一個目標需要完成的,這樣才能讓機器和人類的交流更有價值。我們非常感興趣將來繼續探索這方面的問題。

形成整體解決方案

在 Google Cloud,我們有非常非常多的傳統的行業跟我們進行合作,我們在跟他們交流的過程或者溝通的過程,發覺有好多的問題,我們整個 AI 領域還沒有給予特別多的關注,比如說其中一個就是 AI 醫療。

我們知道醫療技術裡面,實際上有很多非常非常有意思的問題,比如說我們的醫生資源非常少,特別是中國,一個醫生一天看上百人的病人,我覺得這對醫生來說是非常繁重的勞動,而且病人也沒有得到足夠的關照。如果有更多的、足夠的時間去探討和理解他的疾病的話,應該會非常有幫助。在很多發展中國家,甚至都沒有很多的醫生來幫助這些病人解決問題。所以,我們想看看 AI 能怎麼樣幫助解決這些問題。

這裡我想給一個比較簡單的例子,我們自己在這上面做了一些小的、比較新的探索,實際上就是讓 AI 識別胸部 X 光片。

通常人類醫生做這個過程、判斷疾病的嚴重程度非常花時間,而且它對醫生的要求也非常高。假設我們如果有一個基於 AI 的 X 光疾病識別算法,就可以極大地減少人類醫生的工作量。但這裡也有一個悖論:一方面,我們想做這樣的 AI 去幫助醫生做一些判斷,幫助醫生對疾病形成更好、更深的理解;而通常現在的技術就是深度學習,如果我們要做這個問題的話,深度學習會需要大量的標註數據才能做出一些成果。這樣就回到了我們開始想要解決的問題:我們本來是想幫我們的人員減少他們的工作量,減少他們對數據的處理,結果我們做這些事情,反而要讓他們處理更多的數據。

我們這裡就開始在看怎麼樣去解決這個具體問題。通常來說,如果我們要去獲取這種標註數據,對做標註的醫生要求是非常高的。不過其實我們有很多的 X 光圖像都是帶有醫學的報告的,這些醫學的報告來自於以往積累的真實診療記錄。我們合作研究的醫院有十多萬張 X 光圖像,然而在這麼大量的圖像裡面只有小於一千張有這種帶邊界框的數據標註。

我們最近一段時間對這個問題進行了一些探討,去考慮如何用深度學習的方法來解決這個問題。中間我們的 Wang Chong 博士也是對這個專案的學習算法貢獻非常大,我們想的是怎麼用半監督學習,和這些小量的數據,用一個算法來極大地提高了這些少量數據的有效性。這樣的結果我們就可以不但有對這個疾病的類別的判定,同時還能給我們的一些建議,怎麼樣解決這個問題。

這是一個簡單的例子去怎麼看從我們如何去設計算法。在我們這個里面,我們還有做很多的嘗試,中間包括數據收集和總體解決方案的建立。我剛才介紹到對 AI 醫療的領域,我們整個團隊也是非常感興趣。因為有很多的產業的這種合作,所以我們也會用開放的態度積極參與。用 AI 改善人們的生活是我們非常關注的問題,我們想用 AI 來對相關行業做出更多的貢獻。

在中國我們有很多有意思的事情在計劃中或者是說已經在執行了,今天給大家介紹了一些我們近期做的技術和產品,給大家分享了一下我們在做的事情。之後的時間裡也希望 Google AI 中國中心的研究員們能和全中國的 AI 學生、專家、教授們都有更多的合作,合力解決更多尚未解決的問題。

謝謝大家!



from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2AKjG6n










沒有留言:

張貼留言