近日,有消息稱,負(fù)責(zé)優(yōu)化谷歌Gemini人工智能模型的外部承包商,在評估工作中將Gemini的輸出與另一家AI公司Anthropic的競品模型Claude的答復(fù)進(jìn)行了直接對比。這一行為隨即引發(fā)了關(guān)于谷歌是否合規(guī)使用Claude的疑問,特別是考慮到Anthropic的商業(yè)條款中對于模型使用的限制。
在AI技術(shù)日新月異的當(dāng)下,模型性能的衡量通常依賴于標(biāo)準(zhǔn)化的行業(yè)基準(zhǔn)測試,而非通過與競爭對手的直接對比來完成。然而,據(jù)透露,Gemini的承包商被要求依據(jù)諸如真實性、詳盡度等多個維度,對每一個AI回復(fù)進(jìn)行細(xì)致的評分。他們甚至被分配了最多30分鐘的時間,來決定Gemini與Claude哪個的答案更優(yōu)。
在評估過程中,承包商們觀察到了一個顯著的現(xiàn)象:Claude在回答時似乎更加注重安全性。一位承包商在內(nèi)部交流中提到:“在所有AI模型中,Claude的安全設(shè)置無疑是最為嚴(yán)格的?!痹谀承┣榫诚?,Claude會拒絕回應(yīng)那些它認(rèn)為存在安全隱患的提示詞,比如要求扮演其他AI角色的指令。相比之下,Gemini的一次回答因包含“裸體和束縛”的內(nèi)容,被判定為嚴(yán)重的安全違規(guī)。
值得注意的是,Anthropic的商業(yè)服務(wù)協(xié)議明確規(guī)定,客戶在未獲得Anthropic許可的情況下,不得使用Claude來“開發(fā)競爭產(chǎn)品或服務(wù)”或“訓(xùn)練競爭AI模型”。而谷歌,作為Anthropic的重要投資者,這一行為無疑觸動了敏感的商業(yè)神經(jīng)。
面對外界的質(zhì)疑,谷歌DeepMind(負(fù)責(zé)Gemini項目的部門)的發(fā)言人McNamara做出了回應(yīng)。他承認(rèn),DeepMind在評估過程中確實會“對比模型輸出”,但這并不等同于在Anthropic的模型上訓(xùn)練Gemini。“按照行業(yè)慣例,我們確實會在某些情況下對比模型輸出來進(jìn)行評估,”McNamara解釋說,“但關(guān)于我們使用Anthropic模型訓(xùn)練Gemini的說法,完全是不準(zhǔn)確的?!?/p>
此次事件不僅揭示了AI行業(yè)在模型評估上的新動向,也再次引發(fā)了人們對于AI技術(shù)競爭與合規(guī)使用的關(guān)注。在科技日新月異的今天,如何在創(chuàng)新與合規(guī)之間找到平衡點,成為了擺在所有科技公司面前的一道難題。