產業級機器翻譯系統架構
一個成熟的產業級機器翻譯系統除了對翻譯結果(譯文質量)有所要求,還應在翻譯過程中充分考慮到系統性能、硬件要求、系統部署、數據安全等諸多因素。圖4展示了一個面向產業的機器 翻譯系統的流程圖,主要包含以下四部分:
1.模型訓練
收集大規模訓練數據(包括雙語平行語料、單語語料、詞典等),并根據應用需求基于深度學習平臺訓練機器翻譯模型,如多語言翻譯模型、領域自適應模型、多模態翻譯模型等。
2. 部署發布
部署發布包含兩個子模塊,質量評價與系統部署。在機器翻譯模型訓練完成后,需要進行翻譯質量評價,評估新版本模型的翻譯質量是否優于上一版本、是否滿足用戶需求、是否能解決某一類問題等。如達到要求,則進行系統部署,否則還需進一步迭代優化模型,直至滿足各項要求。在系統部署階段,需考慮多種因素。 一個成熟的機器翻譯系統除了能夠高效完成翻譯任務外,還應具備動態調度能力,即根據流量變化實時調整各個機器的負載,最大程度提升機器利用率、響應海量翻譯需求;如出現流量異常、重要內容翻譯錯誤等突發情況,應能夠及時檢測并預警。同時,系統還應具備實時干預能力,即在不影響系統服務的前提下,及時采取系統動態擴容、錯誤譯文實時修正等措施 。
3. 產品及應用
機器翻譯最終通過豐富的產品形態為用戶提供服務,常見的機器翻譯產品有面向用戶的網頁端翻譯服務、桌面客戶端翻譯應用、移動端翻譯應用、翻譯插件(包括但不限于瀏覽器翻譯插件、計 算機輔助翻譯軟件插件、辦公軟件翻譯插件等)、智能翻譯硬件,以及面向開發者二次開發集成的 應用程序接口(API)、軟件開發工具包(SDK) 等。這些產品集成了文本翻譯、文檔翻譯以及融合了語音、圖像處理的多模態翻譯等豐富功能,極大地滿足了人們生產生活中的翻譯需求。
4. 數據及系統安全
安全策略是人工智能系統的一個重要組成部分,機器翻譯也不例外。 一個實用的機器翻譯系統應該構建全生命周期的安全策略,包括認證和授權機制、數據隔離、數據加密、監控審計等方面,保障在存儲和傳輸過程中語料、模型和用戶相關信息的數據安全。此外,在具體應用場景中,可根據需求靈活設計和開發安全策略,例如針對不同硬件和系統環境進行模型適配調整,針對高時空開銷的場景進行模型壓縮等。

圖4:產業級機器翻譯系統流程圖
本文來源:《2023 機器翻譯技術及產業應用藍皮書》