騰訊研究院近期公布了一項人工智能領域的創(chuàng)新成果——DRT-o1系列模型,該模型特別針對文學作品翻譯中的比喻和隱喻處理進行了優(yōu)化,旨在提升翻譯質(zhì)量。
長久以來,神經(jīng)機器翻譯(NMT)雖然在通用文本翻譯上表現(xiàn)出色,但在面對富含修辭手法的文學作品時,尤其是涉及比喻和明喻的句子,仍難以達到理想效果。DRT-o1系列模型的推出,為解決這一難題帶來了新曙光。
為了訓練DRT-o1模型,騰訊研究團隊從古騰堡計劃中精心挑選了400本英文公共領域書籍,這些書籍中包含了577,600個句子。團隊進一步篩選出63,000個含有明喻和隱喻的句子,以此作為模型的訓練數(shù)據(jù)。
DRT-o1模型的核心在于其創(chuàng)新的多智能體框架,該框架由翻譯員、顧問和評估員三個角色構成。這一設計通過三個關鍵步驟:關鍵詞翻譯、初步翻譯和翻譯精煉循環(huán),不斷迭代優(yōu)化翻譯結(jié)果。
以一句英文為例:“The mother, with her feet propped up on a stool, seemed to be trying to get to the bottom of that answer, whose feminine profundity had struck her all of a heap.” 這句話經(jīng)過DRT-o1模型的翻譯后,不僅準確傳達了原句的字面意思,更捕捉到了其中的情感色彩和文化內(nèi)涵。
為了確保翻譯結(jié)果的流暢性和可讀性,騰訊研究院還引入了GPT-4o對DRT-o1模型的翻譯結(jié)果進行潤色。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B兩個版本,實驗結(jié)果顯示,這兩個版本在翻譯質(zhì)量上相較于傳統(tǒng)方法有了顯著提升。
騰訊研究院的這一創(chuàng)新成果,不僅展示了人工智能在文學翻譯領域的巨大潛力,也為未來文學作品的跨文化交流提供了更多可能性。