2017年10月24日 星期二

INSIDE 硬塞的網路趨勢觀察 風向往哪吹 AI 都知道!台大語意分析團隊藍星球發表輿情監測平台「蛛思 CHOOSE」 皇璽會 http://www.iwin688.com

▲藍星球副總經理宋浩博士,photo credit: 藍星球

人工智慧讀寫文章早已不稀奇,聯合利華等國際公司早就使用能讀懂文章的語意分析 AI 來幫忙整理人類根本看不完的履歷,而華文 AI 分析因其商機龐大,不斷吸引中國廠商、跨國外商的競相投入,但因華文文法結構複雜、難度極高,市場仍屬戰國時代。由 臺灣大學官方入股藍星球資訊 今天舉行產品發表會,以臺大正式技術轉移、臺大資工碩博士為研發核心, 百分百臺灣新創團隊自主研發 華文人工智慧演算。

發表會現場展示  「透事 THOUGHTS」華文探勘分析系列技術以及「蛛思 CHOOSE」輿情智慧分析平台兩項產品。透事主要由藍星球提供 6 項技術工具,為自有大量資料的客戶量身打造特殊需求的語意分析 AI,並取代人力,從雜亂的資料中統整出各種有意義的分類、報告、資訊、摘要等等。蛛思則是將技術整合成平台,提供媒體、行銷等需要搜羅外部資訊的客戶一目了然的報表、摘要、關鍵字、競品比較等等應用。

藍星球資訊從 1996 年台大負責的數位典藏計畫開始,為中央政府提供服務,到 2013 年成立藍星球資訊、2016 年開始擴張客群到現在已經累積了 20 年的繁體華文處理經驗。

藍星球副總經理宋浩博士提到,近年英文語意分析以 NLP(Neuro-Linguistic Programming 神經語言程式學)為主,奠基於英文變化少而固定的文法來理解句子。但同樣的方法應用在華文語意分析表現卻不如預期。宋浩博士認為華文語意分析碰到了瓶頸,就是因為沿用 NLP 基礎,但華文組合多變,他舉例全「台大」停電和「全台」大停電,這兩句都可能是對的,還要加入前後文才能判定語意,用 NLP 截出詞語來組合就容易錯誤。藍星球的技術則是大詞優先並挑出關鍵字拼湊語意,他認為這才是跨過華文語意 AI 撞牆期的方法。 

目前演算前導技術已應用於藍星球目前客戶專案,包含臺北市政府、外交部、文化部、華藝數位等重要機關企業,在去年營收就已經打平。蛛思資訊來源除了涵蓋現在台灣的新聞,明年 Q2 預計加入台灣網路社群、Q3 進軍中國新聞、Q4 更要納入中國各大社群。

宋浩認為,台灣面對中國市場競爭本身有繁轉簡多字對一字的優勢,反之簡體一字常常能對應到數個意義不同的繁體字,較容易失真。另外他也提到,中國也有語意分析團隊想直接訓練繁體 AI,卻因資料量過大遭網路長城阻擋,反而台灣這邊能夠讀取中國資訊,訓練中國在地話詞庫更為方便,這些都是台灣團隊的優勢。

現在藍星球團隊技術成員占一半,宋浩博士表示目前仍持續徵才中,非技術部分主要為專案經理,技術人員方面則需要專案工程師、產品工程師,以及鑽研語意 AI 核心技術的研發工程師。

目前團隊中有七到八成都是碩士,大部分來自台大,宋浩坦承跟國外搶人才確實不容易,但是團隊中多為剛畢業的學生,都是為了開發語意 AI 的共同願景而留下,現在也持續徵才,明年希望團隊能擴張到 50 人。



from INSIDE 硬塞的網路趨勢觀察 http://ift.tt/2yMFH25










沒有留言:

張貼留言