當前位置: 華文世界 > 科技

AI轉譯界殺手誕生!阿裏國際轉譯大模型吊打谷歌和GPT-4

2024-10-17科技

編輯:編輯部 HYZ

【新智元導讀】 AI轉譯,全球大廠都卷瘋了!但「綠就是白」「光腿神」這類轉譯卻讓人啼笑皆非。就在剛剛,阿裏國際釋出首個商用轉譯大模型,電商出海神器真來了!

果式文案一出,少不了網友的熱議。

蘋果iOS 18官方7月更新的系統宣傳語中,「真的很你」硬生生文案,被許多人吐槽太過抽象。

原本英文的廣告語是「Yours. Truly.」。

但到了中文這裏,則有種「明明每個字都認識,可連在一起卻怎麽也讀不懂了」的感覺。

如果從轉譯的角度來看,原因主要在於語言之間存在的文化鴻溝。

與專業術語不同的是,蘊含 豐富文化寓意的詞語,字面轉譯對於有文化背景的人來說,難以理解。

論文地址:https://arxiv.org/html/2305.14328v2

如今,隨著LLM的多語言能力越來越強,也讓此前鮮有進展的AI轉譯賽道,突然卷了起來。

早已布局的科技大廠,以及剛剛下場的各路LLM初創,紛紛推出了自家的AI轉譯產品。

DeepL表示,自家LLM的譯文需要更少的編輯。要達到同樣的質素,谷歌需要兩倍的編輯量,而GPT-4則需要三倍

不可否認,AI轉譯仍然是一個復雜領域。

基於深度學習的機器轉譯,雖然對於訓練過的文本語料可以遊刃有余,但對於和訓練文本差異過大的文本,轉譯能力就會大幅下降。

除了訓練數據的局限性之外,AI的上下文理解有限、也讓不同語種的語言結構差異和文化語境差異等原因,也會導致AI經常給出偏差很遠的答案。

就沒有一款輕易上手、放心可用的高效AI轉譯工具嗎?

我們經過一番實測發現,在一眾模型產品中,阿裏國際最新的大模型產品——Marco-MT,在廣義的轉譯領域表現就相當亮眼,透過結合上下語意、場景、物件等,提供更加精準的轉譯,結合阿裏的數據優勢,在電商領域尤為出色。

國產大模型,解決「光腿神」難題

眾所周知,電商行業中術語繁多,不同領域有眾多盲點,即使請專職的轉譯,也很難短時間內給出最準確的說法。

舉個例子,在國內賣爆了的光腿神器,怎麽解釋給歪果仁呢?

有人說,用現成的轉譯產品不就行了?

某產品給出的結果是——「Bare legs god」,好家夥,「光腿神」可還行。

類似的轉譯一個比一個抽象,要讓老外驚掉下巴。

而有了Marco,我們就不會再常常遇到這種抽象的場景了。

Marco轉譯大模型可支持三種方式的轉譯:基於語境的產品轉譯、影像轉譯、即時聊天轉譯。

在處理電商專有詞、流行詞和口語詞等轉譯任務時,這個模型不僅能更好地保留原意,還能立馬輸出簡潔、準確的表達,而且非常符合「歪果仁」的語言習慣。

比如「光腿神器」的轉譯,以往的兩個轉譯產品分別是「A magical tool for bare legs」(一個神奇的光腿工具)和「Bare legs god」(光腿神)。

而用了Marco轉譯大模型,「The bare leg artifact」的譯法簡潔精妙,老外看了都說好!

同樣,「綠色顯白」這類非常口語化的流行詞,Marco-MT給出的轉譯也是非常地道——Green is flattering for the complexion!

綠色是顯白哦!真的很仙的裙子,洋氣不過時的,比較大氣的感覺,還挺顯瘦的,比較適合我的風格,穿出去回頭率有的哦。

相比之下,轉譯1號在表述上並不是很符合當地人的習慣,尤其是「make your skin look whiter」這段。

內容大意:綠色讓你的皮膚看起來更白!這是一條非常仙的裙子,時尚且永不過時,相當優雅,而且顯瘦。它很適合我的風格,穿上它我一定會吸引很多註意力

轉譯2號則更加拉跨,內容和語法完全不對。

「綠就是白」,「時尚但不時尚」,充滿了矛盾的哲學……

內容大意:綠色是白色哦!真的非常仙的裙子,時尚但不時尚,更有大氣的感覺,而且也很顯瘦,更適合我的風格,穿出去回頭率很高哦

接下來,我們加大難度。

「真的是可鹽可甜,穿著顯瘦,拍照簡直不要好看呀,太上鏡了!」,怎麽說?

Marco率先作答:sweet and cute——甜美可愛。

轉譯1號和2號則異口同聲: salt/salty and sweet! (好的,有被齁到)

再來一題:

泰美辣!紮起來的時候看不出來是假發,而且發質看起來超好的,發量看起來也很多!對於短發發量少星人太友好了嗚嗚好喜歡!

Marco依然發揮穩定,正確地轉譯出了「泰美辣」的意思——「so beautiful」。

另外兩位選手的表現,倒是也在意料之中——

1號並不能get到這是什麽意思,直接輸出了拼音「Tai Meila」;2號拆開轉譯成了 Tammy (人名)和Spice(香料)。

再比如「畫風突變」,西班牙語版轉譯出來是這樣的——

不了解西語的朋友可能看不出端倪,「cambio repentino en el estilo de pintura」這句話,轉譯回來的意思是——「繪畫風格的突然變化」。

可以說是驢唇不對馬嘴了。

針對這些訓練預料相對較少的語種,Marco-MT給出的答案——「 Cambio de estilo 」,不僅意思更加貼合原文,表達也更加native。

英文種草「信達雅」

效能如此強大的轉譯模型,為什麽出自阿裏國際?

顯然,這與公司在該領域的多年積累密不可分:

  • 數十億規模的高質素電商預料數據,讓團隊在跨境電商領域一下子就建起了起極為顯著的數據優勢

  • 服務於全球市場的電商平台,讓團隊對不同國家和地區的文化、語言以及商業法規有了深入的了解

  • 因此一經釋出,Marco轉譯大模型就在BLEU、COMET,以及人工評測指標上上,一舉超越市場上的頭部轉譯產品。

    基於Flores公開榜單數據的評測結果

    將其它語言譯為英語的測試中,它的所有結果均已超越行業標桿企業的產品,比如谷歌、ChatGPT、DeepL。

    而將英語譯成其他語言方面,也有一半語言的測試結果超過了谷歌、ChatGPT。

    這麽好用的大模型,用起來會不會很貴?恰恰相反!

    Marco的性價比可謂拉滿,100萬個字元僅需12美元。

    針對不同的轉譯,前兩者價格一致,影像轉譯還更劃算些。

    Marco轉譯大模型主要支持15種語言間的互譯。

    除了常見的中英,還覆蓋了韓語、日語、西班牙語、法語等全球使用量最多的語種,以及烏爾都、孟加拉、尼泊爾、希伯來等小語種。

    可以說,跨境電商常用語種,Marco基本實作了全覆蓋。

    套用場景

    能夠在多語種之間流暢轉換,Marco也就打通了跨境電商中的兩個核心場景。

    內容本地化

    商家上傳的商品資訊,包括標題、詳情、內容、商品圖片短語等,都能被精準轉譯成目標市場語言。

    根據海量電子商務數據訓練後的AI,在產品標題生成上是手到擒來

    另外,模型在搜尋關鍵詞和對話轉譯上也表現不俗,還支持高並行呼叫,並且能理解電商相關知識,滿足各種風格偏好。

    不管買家用的什麽語言,都可以靠AI絲滑地把對話轉譯過去

    個人文件轉譯

    對於個人文件轉譯,Marco也能根據上下文提供高質素轉譯。

    譯文不僅有良好的可讀性,還支持不同風格,滿足個人使用者的多樣化需求。

    總之,Marco作為AI原子能力,可以輕松接入到電商商品管理、客服及搜尋導購等系統中。

    商家和買家都能獲得自動轉譯服務,溝通效率倍增,全面提升消費者觸達效果。

    可以說,Marco的出現,能讓阿裏國際的速賣通、Lazada、Trendyol等電商平台,以及外部電商類客戶,比如為多平台營運商家提供服務的獨立SaaS商(ISV),和對轉譯效果有更高要求的跨境商家,都能提供更絲滑的服務。

    背後技術

    在訓練Marco的過程中,阿裏國際團隊用了多項創新性技術。

    基於通義千問系列大模型,他們進行了多語言增強訓練,搭建出多語言大模型基座——Marco轉譯大模型。

    預訓練過程中,Marco采用了多語言數據篩選技術。

    比如,特別增強語種辨識、多維度數據質素評估,由此,就獲得了高質素、大規模多語言數據。

    與此同時,透過利用多語言MoE、參數擴充套件方法,從而保證主導語言(如中英)效能不下降的情況下,提升了其他語種的效能。

    微調階段,基於多語言大模型基座,再利用 SFT 對模型轉譯能力全面啟用。

    對此,研究人員提出了一種自動構建高質素偏好數據的方法,透過強化學習緩解LLM的幻覺問題,還提升了電商場景特有詞轉譯效果。

    Marco轉譯大模型還有兩處獨特的創新。

    大模型驅動

    首先,模型能夠主動進行語意理解與內容積比重構,而不是簡單的文字轉換,從而避免了各種哭笑不得的歧義。

    比如,「你的寶貝正在路上」,不會再被轉譯成「Your baby is on the way」;

    而且「豬豬女孩」,也不再會被直白地轉譯為「Pig girl」。

    這些富含特色文化且難以直譯的詞匯,Marco轉譯大模型都能恰如其分地表達出來。

    再以「我太太太太喜歡這個商品了」為例,一些AI轉譯產品會將這句話轉譯為「My wife likes this product」。

    而在Marco大模型中,這句話非常地道地轉譯為「I love this product sooooo much」。

    情景化轉譯

    其次,AI轉譯中融入了情境化轉譯能力,這就使它能夠依據特定的環境及目標受眾進行智能調整。

    最終呈現的效果上,不僅轉譯準確無誤,還貼近本土語言的自然流暢。

    跨境電商ALL in AI,下一步再降成本

    說來,阿裏國際為什麽要做轉譯大模型呢?

    與那些致力於模型研發、實作AGI公司不同,阿裏國際從一開始就想明白了,要走AI套用落地之路。

    AI成為跨境電商關鍵變量

    2023年,人工智能作為技術全新變量,掀起了整個跨境電商行業的巨大風暴。

    全球最大電商平台亞馬遜,推出了AI服務平台Amazon Bedrock,讓客戶透過線上領先模型構建GenAI應用程式。

    還有蝦皮(Shopee)、Shopify等一些知名電商平台,爭相布局。

    作為全球最大的跨境電商平台之一,阿裏國際也在全力All in AI。

    去年4月,他們在內部專門成立了AI Business百人團隊,並對40+關鍵場景進行AI測試。

    中小商家們在出海路上經歷的「九九八十一難」——語言文化壁壘、專業人才短缺、獲客成本高等等,被逐一破解。

    比如,AI影像編輯功能可以一鍵實作裁剪、背景生成、移除等功能,點選率超7%;

    虛擬模特能夠隨意上身試穿,膚色性別任選,堪比專業影棚拍攝效果。

    經過一年多的嘗試,成果已經初顯。

    近半年的數據顯示,平均每兩個月,商家對於AI的呼叫量就翻1倍,AI的呼叫量已經突破日均1億次。

    更具象地說,一個在速賣通起家的Zeuslap顯視器創業9年,借助AI從名不經傳的小作坊,迅速成長為平台行業TOP 1的品牌。

    以往,他們會招聘專業美工師,從摳圖、找素材、PS,一周只能做4-5套。

    自從去年11月用上AI工具之後,70%以上的設計圖幾乎被AI承包。比如,商品banner圖、產品場景圖、YouTube封面圖等等。

    截至目前,全球超1億件商品被AI最佳化,50萬跨境商家用AI賺到了錢。

    阿裏國際之所以成績斐然,與團隊過去所攻克的研究難題密不可分。

    在多語言方面,為了提升大模型多語言能力,並將其更高效地用實際任務中,多語言增強大模型MarcoPolo由此誕生。

    並且,實作了更低成本更優效果。

    在多模態方面, 多模態大模型 MarcoPolo-VL能夠用「眼睛」精準辨識,進行推薦。

    還有團隊最新釋出的多模態大模型Ovi,直接拿下開源第一。

    ICCV 2023 頂會上,一向低調的阿裏國際AI團隊,憑借「視覺-語言演算法推理」workshop拔得頭籌。

    簡單講,這與當下火熱的GPT-4V多模態生成是同題競賽。

    Marco轉譯大模型,大規模商用

    這次,Marco轉譯大模型亮相,進一步為語言文化壁壘提供了絕佳的解決方案。

    這款AI轉譯大模型核心聚焦在兩大領域——電子商務、日常交流。

    它將整合到阿裏國際旗下眾多跨境電商業務平台,如速賣通、Lazada、Trendyol。

    此外,Marco轉譯大模型還將面向全球個人使用者,真正實作從專業商務到日常生活全覆蓋。

    試用傳送門: https://aidc-ai.com/page/translation.htm#tryout

    由此可見,阿裏國際的AI轉譯大模型有著巨大的商業化前景。

    首先,它與阿裏生態系深度融合。

    阿裏國際擁有著天然的3億使用者出海業務,而且電商足跡遍布全球100+國家/地區,連線著數百萬商家及數億消費者。

    這一龐大的生態網絡預示著,僅在阿裏國際內部,就擁有服務廣泛使用者群體和多樣化套用場景的廣闊舞台。

    其次,AI轉譯服務並不局限於阿裏生態之內。

    團隊成員們積極向外擴充套件,讓Marco轉譯大模型觸及更廣泛使用者群體、商業實體。

    因為,外部的生態才是一個潛力無窮、規模驚人的市場空間,尤其是全球新興市場的需求。

    阿裏國際AI國際在最受歡迎TOP 20使用國中,約半數未發展中國家。

    那麽,全新的AI轉譯大模型也將賦能這些國家的中小企業(SMEs),幫助它們跨越語言障礙,高效開展全球業務。

    未來,阿裏國際還將持續投入,擴充套件語向的數量,提升更多不同場景下的轉譯質素。

    最重要的是,進一步降低使用者的使用成本。

    在阿裏國際看來,AI+跨境電商只是邁出了第一步,AI之於電商最大的改造,應是做到「降本增效」的極致。

    向前一步,可以看到AI會顛覆電商使用者互動、購物形態。

    向後一步,AI將會重塑整個電商供應鏈,甚至上從根本去改變搜、推、廣的商業模式。

    AI將為跨境電商的未來帶來種種可能,讓我們拭目以待。

    參考資料:

    https://aidc-ai.com/