SEO-AOne_特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?

特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
本文系網易智能工作室出品。聚焦AI,讀懂下一個大時代!文 | 抹茶編者按:2016年的一部《翻譯官》火了,這是國內首部聚焦翻譯領域的電視劇,讓人們對於翻譯行業尤其是同聲傳譯,有了新的認識。但是同時,隨處可見的翻譯機廣告充斥着整個社會:“有了它,媽媽再也不用擔心我出國不會說英語了”,“用超過100種語言探索世界”,如此等等。理論上講,對於那些要想出國旅遊的人來說,這未嘗不是一件好事,因為有了它們就不需要擔心因為語言不通而造成的逋巨限瘟耍有睦硌У慕嵌壬俠唇玻悄芊氳某魷執吹氖巧澩σ旃繅材芨惺艿降陌踩小但是,翻譯機真的能解決很多人英語不夠用的困境嗎?面對商業應用,針對需要大量專業術語的國際會議,這些智能的機器翻譯是否還會奏效?另一方面,隨着智能翻譯的興起,越來越多語言專業的學生和翻譯行業的工作人士抱怨,神經網絡翻譯等技術的出現,讓原本就競爭激烈的翻譯市場迅速進入了冰凍期。但是,未來機器翻譯真的會完全取代人類,讓翻譯員們下崗嗎?網易智能梳理了目前主流的機器翻譯技術與應用,一探智能機器翻譯行業究竟。神經網絡翻譯的前世今生20世紀初期多位科學家與發明家陸續提出機器翻譯的理論與實作計劃或想法但真正的機器翻譯研究要追溯到20世紀四十年代。1949年,W. Weaver發表《翻譯備忘錄》,第一次正式提出機器翻譯的思想,到傳統的基於短語的機器翻譯,再到當今基於遞歸神經網絡技術的神經網絡翻譯的各種翻譯機和翻譯軟件的出現。隨着人工智能的發展,一改傳統機器翻譯的格局,隨着LSTM、 RNN等技術的加入,新時期機器翻譯在翻譯質量上最大的變革就是從PBMT到NMT的轉變,而其中,谷歌神經機器翻譯系統實現了到目前為止機器翻譯質量的最大提升。不得不提,在機器翻譯進化史中,最具里程碑式的突破之一就是谷歌翻譯在2016年推出的神經網絡翻譯,相比於谷歌之前基於短語的機器翻譯,GNMT所需要設計的工程量更少,同時翻譯效果更好,可見GNMT 的技術將把機器翻譯帶到一個全新的紀元。而所謂的先進之處,在於翻譯邏輯模仿了人腦的表達模式,通俗地講,實現了把一句話中所有詞彙的語意融合在一起進行綜合理解與分析。而傳統的機器翻譯逐個識別和理解詞彙,從而無法達到理解不同詞彙融合后產生的含義。年來,“神經網絡機器翻譯技術”成為人工智能翻譯主流。該技術通過“端到端”的方法將翻譯平行語料進行映射,以“編碼器―注意力機制―解碼器”的結構,解決翻譯問題。在使用人類對比評分指標時,相較於之前也實現了極大的提高,在多個樣本的翻譯中,神經翻譯系統將誤差降低55%-85%,甚至更高,在某些語言對上可以說接近了人工翻譯的平。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
圖:技術進步帶來翻譯質量的提升為何NMT如此受歡迎?過去的 PBMT的翻譯單位是詞組,其中最讓人頭疼的地方在於句子的語序問題,英譯中主要存在的問題是詞序問題。之前 PBMT是先把句子分成一個個短語和單詞,然後獨立翻譯,最後對翻譯出來的獨立短語解釋進行邏輯整理,變成句子。但是鑒於中文和英文隸屬於不同的語言體系,其語序排列等表達方式上存在着巨大的差異,因而面對單個翻譯再調整語序的系統,就會變得異常繁瑣複雜且容易出錯。 NMT的翻譯單位則是句子,它將整個句子視作翻譯單元,對句子中的每一部分進行帶有邏輯的關聯翻譯,翻譯每一個字或單詞時都包含着整句話的邏輯。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
圖為PBMT、GNMT和人工翻譯的同一段話的中譯英對比由此可見,神經網絡相較於傳統機器翻譯技術是一種革命性的改變。如果說基於短語的統計機器翻譯(PBMT)是一種拼圖過程,通過對短語對的排列和組合,嘗試找出較好的翻譯選項,但整個決策過程是離散的、其中涉及的決策信息也都是局部的。那麼,神經網絡機器學習反其道而行,更具有整體性,使整個決策過程既是連續的也是全面的。但是在性能和翻譯速度上,PBMT也有GNMT所不能比的優勢。在這兩個方面,GNMT還有待改進。機器翻譯繁榮景象與各家產品對比在機器替代人類勞動力的征途里,翻譯界無疑首當其衝。機器翻譯技術很早就存在,但真正的實現大規模產品化,是出現在谷歌發布翻譯產品之後的半年中,谷歌、微軟、有道、科大訊飛、百度、搜狗等均上線或更新了翻譯產品,各大廠商都想在這個備受關注的機器翻譯領域裡分得一杯羹。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
你可能會覺得奇怪,為大型技術公司都熱衷於扎堆做機器翻譯?事實上,無論對於上述哪家公司,翻譯相較於其他技術,都不是塊有極大商業空間和發展的業務。但在現有的AI技術中,機器翻譯的成熟度相對較高所以即便出於炫技的目的,翻譯也必然會成為兵家必爭之地。但說到底,對公司而言,真正能衍生出商業模式、實現商業落地、有利可圖的技術才是真正有價值的。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
| 谷歌翻譯提到谷歌翻譯,也許很多人並不知道,在中國是可以使用谷歌翻譯的。據悉,谷歌翻譯2006年就已經推出,對此,谷歌翻譯研發科學家高勤表示,全球僅20%的人能看懂英文所以谷歌翻譯能支持100種語言翻譯。目前,谷歌翻譯支持手機攝像頭識別即時翻譯,手機麥克風和揚聲器即時對話翻譯,離線翻譯等等。谷歌神經網絡翻譯可以把一整句話作為翻譯單元,翻譯每一個字詞時都會考慮到前面已有的所有字詞含義。除此之外,谷歌已將目光投向多語言模型,用同一套神經網絡學習多種語言的互相翻譯無需通過英語中轉就可以實現兩者非英語語言的翻譯,這為未來構建統一翻譯模型提供了可能性。但是,零數據翻譯必須要體現在翻譯多個語言對,而且它們之間要有相關性的時候才能發揮作用。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
圖:谷歌神經網絡翻譯工作原理雖然 GNMT 在機器翻譯領域裡已經可以算是最先進的技術,但是其存在的缺陷還遠未得到完全解決,儘管現在 GNMT 已經可以將句子作為翻譯單元,在翻譯時考慮整個句子中每個字的前後關聯,但 GNMT 將句子單獨進行翻譯時還是無法考慮到其段落或頁面的上下文的關係。另外,鑒於機器沒有和人類一樣的思維邏輯和推理能力,GNMT 仍然會做出一些人類翻譯者不會犯的奇怪錯誤,例如漏詞或者錯誤翻譯專有名詞或罕見術語。而這些錯誤的出現往往是因為訓練數據里的缺陷,或者語料庫不夠完善導致。對於GNMT 是否已經到達了機器翻譯的極限,Google Brain 的軟件工程師陳智峰曾表示,現有的深度學習 RNN 模型還有很多可開發的空間,例如讓模型變得更大或者層數增加,同時在該領域每年也都有新的模型出現,深度學習的模型也會不斷迭代,所以 GNMT 目前的技術還遠未到極限,更加不會是機器翻譯的極限| 微軟翻譯有網友稱微軟是家讓人搞不懂的公司:為什麼搞不好系統里的中文,卻開發了最好的翻譯軟件。一方面Windows操作系統的中文翻譯讓人貽笑大方,同時卻又開發出了一個幾乎在所有移動設備上特別好用的翻譯軟件――微軟翻譯。目前,微軟翻譯可以在包括中英日韓意法等常用語言在內的50多種語言之間進行翻譯,在網絡情況良好的情況下,基本可以實現實時翻譯且準確度較高。與當下眾多語音助手選擇女性聲音不同,微軟翻譯的語音輸出選用的是男聲Microsoft Mike。不過,談及微軟翻譯的技術難題,微軟首席語音科學家黃學東表示語義理解是語音交互中最難攻克的問題之一。他指出,這是因為語音理解方面的標記非常少,而且也沒有公認的標準,所以要通過非監督式學習來攻克這個困難,但是非監督式學習目前還在探索階段,亟待突破。另外,人在翻譯和學習時會對上下文或前後語境進行關聯性理解,而且是基於一定的知識儲備的基礎上。但機器無法學習知識,也沒有理解能力,從而陷入了“雞和蛋”的問題之中。| 有道神經網絡翻譯有道翻譯網易公司開發的一款翻譯軟件依靠搜索引擎的後台數據和“網頁萃取”技術,從海量網頁中提煉出傳統詞典無法收錄的各類新興詞彙和英文縮寫,例如影視作品名稱、品牌名稱,並能實現實時更新對於人工翻譯市場的行情,網易有道CEO周楓曾經估算過約有400億人民幣左右。不過,自去年穀歌推出GNMT,市場行情出現了轉變。周楓表示:“NMT突破對於做翻譯產品的公司而言,出現得恰逢其時。基於這種技術,每個月翻譯質量的進步都是驚人的。面對谷歌、微軟等強勁的對手,網易有道CEO周楓表示,翻譯的巨頭之爭中,翻譯質量和用戶交互是制勝關鍵。對於單個例句的翻譯結果準確率不高的問題,周楓認為,一方面是翻譯總數據量的原因,另外一方面也因為垂直語料算法沒經過專門處理,比如數字、日期、人名就需要專門算法處理,如果依賴總體數據庫翻譯就會不完全準確。| 百度翻譯百度翻譯在2011年7月上線2015年5月發布神經網絡翻譯系統目前支持全球28種熱門語言互譯,包括中、日、韓、泰、德、法等,覆蓋756個翻譯方向,例如旅遊和口語等。除文本翻譯外,百度翻譯還推出了網頁翻譯、離線翻譯、語音翻譯、拍照翻譯等功能。其中的拍照翻譯和離線翻譯是相較於其他家比較突出的一些特色。“菜單翻譯”可實現對準菜單拍照立現翻譯結果。百度翻譯最大的特色是除翻譯結果外,還提供示例用法與原文配對。示例用法提供的例句能夠幫助用戶查看更多類似翻譯結果或單詞的用法,當機器翻譯結果不準確或有待改進時,可以通過最佳、最相符搜索結果為用戶提供參考和建議,提升翻譯效果。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
圖為谷歌、有道、微軟、百度、搜狗數字翻譯準確度對比| 訊飛翻譯機以語音識別起家的科大訊飛也推出了自家的基於NMT的智能翻譯機――訊飛翻譯機,這是一款中英口語間的即時互譯的產品。近期,訊飛翻譯機升級了多語言模式,除中英互譯外,新增日、韓、法、西班牙目前可以實現5國語言與中文互譯據悉,目前訊飛翻譯機能幫助人們在衣食住行等日常生活、出國等場景下處理語言交流的問題,但距離會議同傳以及高水平翻譯所講究的“信、達、雅”還存在很大的差距。訊飛翻譯機配備了一個手機APP,支持語音中英語音實時翻譯,可以實現顯示即時語音識別和面對面翻譯功能。另外,訊飛翻譯機的一大特色就是對於中國方言的識別能力比較強,但是也僅局限於那些比較像普通話的方言,例如東北話、陝西話、河南話等。面對智能翻譯領域同質化嚴重的現象,科大訊飛輪值總裁、研究院院長鬍郁表示,對於機器翻譯,大家的思路還有採用的技術點都是類似的,比如現在用Attention模型――基於注意力的自然語言處理,大家都會用,但差異在對問題定義的方式和提出問題以後找到解的不同的途徑,每家的側重點和亮點也不一樣。對於訊飛翻譯的着力點,胡郁曾說,訊飛目前專註於中英之間的語音互譯,需要解決兩個語種所有的合成識別等一系列的問題。| 搜狗翻譯一直以來,和其他家打造的多語言互譯不同,搜狗翻譯聚焦中英互譯前段時間,搜狗翻譯APP進行了升級,實現了AI與AR實景技術結合,新增了菜單翻譯等功能。搜狗2016年捐贈清華大學打造工智能計算研究院,機器翻譯也是天工智能研究院下面的第一個合作項目,雙方將聯合推進多場景即時對話翻譯談及機器翻譯的模型,現在seq2seq+attention 的模型已經在 NMT 及其他眾多 NLP 任務上取得了非常好的效果,目前搜狗的神經網絡目前已經做到了5層。但是,搜狗翻譯要想實現對上下文的完全理解和流暢翻譯,甚至是想要完全實現包括方言、口音在內的多語音識別,還需要一定的時間。機器翻譯的大規模落地應用還有多遠?面對人工智能時代,智能翻譯百花齊放的繁榮盛景中,也出現了嚴重的同質現象,為了實現產品的商業化呈現出一片紅海態勢。例如做語音技術起家的科大訊飛,也開闢了翻譯業務,從技術環節到產品銷售等完整的生產鏈的打造,湧現出諸多翻譯機產品,但集中產品化不到一年,已然是一片紅海態勢。不過機器翻譯這個領域依然是個贏者通吃的小市場。機器翻譯的出現的本質是為了快速方便的實現不同語言之間低成本的有效交流。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
目前,機器翻譯的應用主要集中在以下幾個方面:商業交流,例如商業往來郵件的翻譯、簡單會議洽談、外貿買賣等。旅遊交際,例如出國旅遊時的菜單翻譯、問路提示牌、簡單的口語交際等。新聞編譯,例如網易見外翻譯機器平台等用於外文網站新聞的翻譯等。遊戲組隊,諸如星際爭霸等國際遊戲玩家間的溝通交流等。影片字幕,比如觀看多語種外文電影、電視劇、演講等。國際比賽,諸如AI挑戰賽等國際大型比賽中的溝通等。由此可見,目前,機器翻譯還是停留在可實現簡單溝通交流的層面,而對於那些要求較高的例如書籍翻譯、專業性強的高級會議口譯等翻譯質量要求高的地方,機器翻譯還有很長的路要走。技術方面,目前火熱的智能音箱領域一樣,智能翻譯也面臨著語義理解上的技術壁壘清華計算機系副教授劉洋表示NMT目前最難的就是語言歧義性問題,這是自然語言處理所最大的挑戰。人類語言和機器語言不一樣,機器語言要求精準、沒有歧義,比如 C+,JAVA。但是自然語言,尤其是口語交互的歧義性很高。另外,神經網絡翻譯的主要局限還是如何提升自然語言理解能力,而且面臨著很大挑戰。機器翻譯掘金路:人機結合的商業模式才是王道儘管NMT的出現被視為機器翻譯時代的重大轉折點,讓機器翻譯的質量出現了質的提升。NMT取代人工翻譯還為時尚早。NMT翻譯仍然時不時地會犯一些很傻的錯誤。實際場合的翻譯,尤其是書面翻譯和大型重要場合如文學、商務、法律等特定專業化場景下的翻譯,對這樣的錯誤容忍度很低。同時,機器翻譯對於成語、俗語、俚語等文化色彩詞的翻譯處理仍存在大量的局限性可見,不管是任何語言,翻譯軟件都是工具,都不會達到100%的精確,因為必須要有人為的干預和選擇。特稿 | 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
從另一方面看,我們不得不承認,機器翻譯的出現消減和降低人工翻譯所耗費的成本巨大,實現不同語言之間低成本的有效交流。技術提升引發的成本下降,往往是開商業化缺口的契機。神經網絡翻譯將機器翻譯的準確度提升后,人機結合的商業模式具備了可行性。即由機器先做翻譯,人工翻譯員做後續的審核和潤色。人工需要付出的時間和精力由此縮減了50%,相應的翻譯價格也下調了一些網易有道的周楓認為,人機結合的方式,降低了用戶的使用成本,會激發出一部分此前被壓抑的翻譯需求。另一方面,由於精準度提升和移動端翻譯的用戶習慣的拓展,翻譯的需求量也在呈現出明顯的增多根據周楓的估算, 除卻藝術屬性的文學領域和對準確性要求非常高的商業合同等領域,三年左右時間,機器翻譯會替代包括日常通信、新聞、技術文檔、學術文獻等90%的人工翻譯場景。

機器翻譯的準確度確實在逐步提升,逐漸接近人工翻譯,但是始終是可模仿,不可超越。所以,機器翻譯和所有的人工智能技術一樣,它們不能取代人,只會成為人類的助手,是一種工具,幫助人們工作的更好。關注網易智能公眾號,獲取人工智能行業最新報告。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *