皇璽會000013: INSIDE 硬塞的網路趨勢觀察除了下圍棋，人工智智慧也能無師自通學會雙語翻譯了！皇璽會 http://www.iwin688.com

2017年12月3日星期日

INSIDE 硬塞的網路趨勢觀察除了下圍棋，人工智智慧也能無師自通學會雙語翻譯了！皇璽會 http://www.iwin688.com

本篇來自合作媒體極客公園，INSIDE 經授權轉載。

隨著人工智慧技術的發展，機器隨著人工智慧技術的發展，機器翻譯已經取得了很大進步。然而在傳統方法中，需要數百萬字的逐句對照來教會機器如何翻譯。研究人員在新論文中表示，不需要平行文本（可以逐句對照閱讀的原文及其譯文），也可以讓其學會翻譯。

人類一直渴望溝通，早在 20 世紀 30 年代初，法國科學家 GB 阿爾楚尼提出了用機器進行翻譯的想法。經過幾十年的努力，人類終於逐漸學會用機器翻譯。這個過程經歷了很多階段：

起初是基於規則的翻譯。最簡單的翻譯方法是逐字翻譯。如將「我愛你」翻譯成「I love you」。隨著句子越來越複雜，語言學家們發現了越來越多的規則，可用程式實現。

下一個階段是用統計方法進行翻譯。專家把一句話分成很多塊，把每一塊所有可能的翻譯都找到，選擇機率最大的。最後將所有的句子生成，找到最有可能的。如「我愛你」，可能被翻譯成「I love you」、「I like you」，最終「I love you」最適合，被系統選擇。

建造這樣一個系統需要大量的數據用於訓練系統，我們需要平行文本，並至少被翻譯成兩種語言。但每當有一種新的語言，都需要專業人士進行調試和修整。

隨著科技進步，科學家發明了人工智慧神經網路技術來翻譯。以 Google 為例，他的翻譯系統非常強大，需要很多訓練數據和電腦資源才能實現，它使用了序列到序列技術（sequence to sequence）。這個技術的翻譯準確率已經超過了使用統計方法的機器翻譯系統。

然而，這些人工智慧系統通常需要大量的人工翻譯的內容供電腦學習，而現在有兩篇新的論文宣布，可以開發一個不依賴平行文本的系統。

來自西班牙巴斯克大學（UPV）的資訊科學家 Mikel Artetxe 表示，你給一個人很多的中文書籍和阿拉伯語書籍，二者沒有文字重合，在這種情況下，一個人學習將中文翻譯成阿拉伯文很難，但電腦可能不會。

他們用的是非監督學習方法。監督學習可以理解為數據有標籤，好比知道題目和答案，這意味著它會針對任何問題做出正確答案的嘗試，人類會告訴它是否正確，並根據需要修改。

在實際應用中，往往很難獲取到數據標籤，因此要選擇非監督學習。例如，不管在哪種語言中，「桌子」和「椅子」經常一起使用。系統透過找到每種語言中的這些關係，對其進行比較，就能理解哪些相關。

新論文中，提出的方法與此類似，還能翻譯完整的句子。

論文中使用了兩種策略：「反向翻譯」（Back Translation）和「去噪」（Denoising）。反向翻譯是把一種語言寫成的句子粗略翻譯成另一種語言，然後反向翻譯回來，如果結果不相同，則對系統進行調整。去噪也是類似的過程，但不是來回翻譯，而是向句子中添加單詞等「噪聲」。這些方法可以幫助機器更好地理解語言如何翻譯。

這兩個系統，一個是 UPV 開發的，另一個是 Facebook 資訊科學家 Guillaume Lample。那麼，如何評價者兩種系統呢？二者選擇比較英文和法文之間的雙向翻譯，其中包含了 3000 萬個句子，這是兩篇論文之間唯一能比較的結果。兩者用來衡量翻譯的準確性的評分均為 15 分，與 Google 翻譯的 40 分相比要低，人工翻譯則為 50 分。作者們均表示，這些系統能夠透過半監督學習的方式得到改進，即監督學習和非監督學習相結合。

此前，AlphaGo Zero 同樣也不需要人類的經驗，自行學會了棋譜。或許在未來，人工智慧可以在很多領域「無師自通」，也能成為擺脫人類思維定勢的很好方法。

from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2ATrHpe

更多資訊 http://www.iwin688.com