HMS Core機器學習服務文本翻譯能力提供多種語言和多種應用場景的翻譯服務,比如,在出國旅游的場景中,用戶可以藉助應用的語音翻譯播報功能在打車、酒店入住等場景中無障礙溝通,也可以通過拍照翻譯功能讀懂餐廳菜單、路牌信息等。 中文直譯模型讓文本翻譯能力升級 當前主流的翻譯模式大都以語料資源較為豐富的英 ...
HMS Core機器學習服務文本翻譯能力提供多種語言和多種應用場景的翻譯服務,比如,在出國旅游的場景中,用戶可以藉助應用的語音翻譯播報功能在打車、酒店入住等場景中無障礙溝通,也可以通過拍照翻譯功能讀懂餐廳菜單、路牌信息等。
中文直譯模型讓文本翻譯能力升級
當前主流的翻譯模式大都以語料資源較為豐富的英文作為中間語言進行“橋接”翻譯,但是經英文轉移後翻譯精度有所損失,且計算資源加倍執行效果降低。為了響應“一帶一路”倡議,助力多元開放的全球化進程,國內出海應用語種翻譯需求明確且要求系統本地化部署,對部分語言方向如中日、中俄等翻譯質量要求較高,同時希望這些語言方向的翻譯效果持續提升。
基於此,HMS Core機器學習服務對文本翻譯能力進行升級,中日、德、法、俄四國語言的中文直譯模型已在新版本中上線。相較於英文橋接翻譯,中文直譯模型可實現每秒併發300字元,端到端翻譯速度小於150ms,翻譯時延降低100%,翻譯速度更快;針對中文特色詞、俚語的翻譯結果更地道,翻譯質量更優。升級後的文本翻譯能力可以滿足中企出海或外企入華等對翻譯要求更高場景的需求。
中文直譯模型方案還參加了WMT2021國際機器翻譯大賽子任務(Shared Task: Triangular MT: Using English to improve Russian-to-Chinese machine translation),並以顯著的優勢在該任務中獲得了第一名。
中文直譯和橋接翻譯效果對比
法譯中
【原文】Smart Launcher est un lanceur pour d’applications Android qui substitue l'interface classique de votre téléphone avec une autre qui est un peu plus simple et qui vous permettra d'accéder à toutes vos applications plus rapidement et plus confortablement.
【英文橋接】智能啟動器是一款Android應用程式的啟動器,它可以用一個簡單一點的界面取代手機的經典界面,讓你更快、更舒適地訪問所有應用程式。
【中文直譯】Smart Launcher是一款Android應用程式啟動器,它用另一個更簡單的界面取代了手機的經典界面,這將讓您更快、更舒適地訪問所有應用程式。
俄譯中
【原文】О, да ладно, когда кто-то грубит тебе в коридоре является, без сомнений, самой меньшей из тех проблем, с которыми ты сталкиваешься в старших классах.
【英文橋接】哦,拜托,在走廊里有人對你無禮,毫無疑問,是你高中時面臨的最不重要的問題。
【中文直譯】哦,拜托,當有人在走廊里對你無禮無疑是你在高中時遇到的最小的問題。
德譯中
【原文】Dieser von klassischen Laufschuhen inspirierte Herren-Sneaker zeichnet sich durch einen Materialmix aus Wildleder und verschiedenen Gewebearten aus und präsentiert sich in der Cruise 2020 Kollektion mit einer neuen Mid-Top-Silhouette, die genau bis zum Knöchel reicht.
【英文橋接】這款男式運動鞋的靈感來自經典跑鞋,採用麂皮和不同面料的混合,並採用全新的中幫輪廓,在2020年郵輪系列中一直延伸到腳踝。
【中文直譯】這款男士運動鞋的靈感來自經典跑鞋,採用麂皮和不同面料的混合材質,在2020年郵輪系列中呈現出全新的中幫輪廓,完全延伸到腳踝。
中文直譯模型的技術優勢
中文直譯模型藉助了華為在機器翻譯方面的最新研究成果,通過利用俄英、英中語料進行知識蒸餾,在少量或沒有俄中語料的情況下,結合顯式課程學習訓練策略可以得到質量不錯的俄中翻譯模型,解決了英文橋接翻譯系統的低資源以及冷啟動的問題。
中文直譯系統
技術點一:多語言增強策略(Multi-lingual Encoder Decoder Enhancement)
以俄中翻譯任務為例,通過多語言模型,引入英中語料並結合知識蒸餾,加強譯文側decoder層的解碼能力;引入俄英語料加強原文側encoder層編碼能力。從而極大程度上解決冷啟動問題。
技術點二:課程學習策略(Explicit Curriculum Learning for Denoising)
在訓練過程,結合顯式的課程學習技巧,根據噪音量劃分三階段增量式訓練方案。在第一階段,使用全量的帶噪語料進行訓練,使得模型快速收斂;第二階段使用雙語對齊工具去噪後進行增量訓練;第三階段使用增強後的降噪雙語數據進行增量訓練,完成模型最終收斂。
技術點三:基於組合解碼策略的數據增強方案(FTST For Data Augmentation)
FTST全稱Forward Translation and Sampling Backward Translation,該技術在Backward Model中使用sampling的方式進行數據增強;在Forward Model中使用beam search的方式進行數據均衡。在對比實驗中,取得了最好效果。
除了現有的四種語言以外,機器學習服務文本翻譯能力計劃今年會陸續上線日、法、德、俄、韓、葡、西、土、泰、阿拉伯、馬來、義大利、波蘭、荷蘭、越南語共計15國的中文直譯模型,基本覆蓋中國、亞非拉、歐洲、南美洲等全球主要國家和地區。
瞭解更多詳情>>
訪問華為開發者聯盟官網
獲取開髮指導文檔
華為移動服務開源倉庫地址:GitHub、Gitee
關註我們,第一時間瞭解 HMS Core 最新技術資訊~