2017年12月3日 星期日

INSIDE 硬塞的網路趨勢觀察 除了下圍棋,人工智智慧也能無師自通學會雙語翻譯了! 皇璽會 http://www.iwin688.com

本篇來自合作媒體 極客公園 ,INSIDE 經授權轉載。

隨著人工智慧技術的發展,機器隨著人工智慧技術的發展,機器翻譯已經取得了很大進步。然而在傳統方法中,需要數百萬字的逐句對照來教會機器如何翻譯。研究人員在 新論文 中表示,不需要平行文本(可以逐句對照閱讀的原文及其譯文),也可以讓其學會翻譯。

人類一直渴望溝通,早在 20 世紀 30 年代初,法國科學家 GB 阿爾楚尼提出了用機器進行翻譯的想法。經過幾十年的努力,人類終於逐漸學會用機器翻譯。這個過程經歷了很多階段:

起初是基於規則的翻譯。最簡單的翻譯方法是逐字翻譯。如將「我愛你」翻譯成「I love you」。隨著句子越來越複雜,語言學家們發現了越來越多的規則,可用程式實現。

下一個階段是用統計方法進行翻譯。專家把一句話分成很多塊,把每一塊所有可能的翻譯都找到,選擇機率最大的。最後將所有的句子生成,找到最有可能的。如「我愛你」,可能被翻譯成「I love you」、「I like you」,最終「I love you」最適合,被系統選擇。

建造這樣一個系統需要大量的數據用於訓練系統,我們需要平行文本,並至少被翻譯成兩種語言。但每當有一種新的語言,都需要專業人士進行調試和修整。

隨著科技進步,科學家發明了人工智慧神經網路技術來翻譯。以 Google 為例,他的翻譯系統非常強大,需要很多訓練數據和電腦資源才能實現,它使用了序列到序列技術(sequence to sequence)。這個技術的翻譯準確率已經超過了使用統計方法的機器翻譯系統。

然而,這些人工智慧系統通常需要大量的人工翻譯的內容供電腦學習,而現在有兩篇新的論文宣布,可以開發一個不依賴平行文本的系統。

來自西班牙巴斯克大學(UPV)的資訊科學家 Mikel Artetxe 表示,你給一個人很多的中文書籍和阿拉伯語書籍,二者沒有文字重合,在這種情況下,一個人學習將中文翻譯成阿拉伯文很難,但電腦可能不會。

他們用的是非監督學習方法。監督學習可以理解為數據有標籤,好比知道題目和答案,這意味著它會針對任何問題做出正確答案的嘗試,人類會告訴它是否正確,並根據需要修改。

在實際應用中,往往很難獲取到數據標籤,因此要選擇非監督學習。例如,不管在哪種語言中,「桌子」和「椅子」經常一起使用。系統透過找到每種語言中的這些關係,對其進行比較,就能理解哪些相關。

新論文中,提出的方法與此類似,還能翻譯完整的句子。

論文中使用了兩種策略:「反向翻譯」(Back Translation)和「去噪」(Denoising)。反向翻譯是把一種語言寫成的句子粗略翻譯成另一種語言,然後反向翻譯回來,如果結果不相同,則對系統進行調整。去噪也是類似的過程,但不是來回翻譯,而是向句子中添加單詞等「噪聲」。這些方法可以幫助機器更好地理解語言如何翻譯。

這兩個系統,一個是 UPV 開發的,另一個是 Facebook 資訊科學家 Guillaume Lample。那麼,如何評價者兩種系統呢?二者選擇比較英文和法文之間的雙向翻譯,其中包含了 3000 萬個句子,這是兩篇論文之間唯一能比較的結果。兩者用來衡量翻譯的準確性的評分均為 15 分,與 Google 翻譯的 40 分相比要低,人工翻譯則為 50 分。作者們均表示,這些系統能夠透過半監督學習的方式得到改進,即監督學習和非監督學習相結合。

此前,AlphaGo Zero 同樣也不需要人類的經驗,自行學會了棋譜。或許在未來,人工智慧可以在很多領域「無師自通」,也能成為擺脫人類思維定勢的很好方法。



from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2ATrHpe










沒有留言:

張貼留言