近日,據(jù)TechCrunch獲取的一份內部交流資料顯示,負責優(yōu)化谷歌Gemini人工智能模型的承包商,在進行模型評估時,將Gemini的回答與另一家AI公司Anthropic的競品模型Claude的輸出進行了直接對比。這一行為隨即引發(fā)了業(yè)界對于谷歌是否遵循了與Anthropic的協(xié)議規(guī)定,是否有權使用Claude進行此類測試的質疑。
在當前的AI開發(fā)競賽中,模型性能的評估往往依賴于標準化的行業(yè)基準測試,而非通過詳細對比競爭對手的AI響應來進行。然而,此次Gemini的承包商被要求依據(jù)包括真實性和詳細程度在內的多項標準,對每個收到的回復進行評分。據(jù)TechCrunch獲得的內部交流信息,承包商有最多30分鐘的時間來判斷Gemini或Claude的答案哪個更優(yōu)。
在對比過程中,承包商們注意到Claude的回答似乎更加注重安全性。有承包商在交流中提到:“Claude在所有AI模型中,安全設置最為嚴格?!痹谀承y試場景下,Claude會拒絕回應它認為不安全的提示詞,例如扮演不同的AI助手。而在另一項測試中,Claude避免了對某個特定提示詞的回應,相比之下,Gemini的回答因包含“裸體和束縛”等敏感內容,被判定為“嚴重的安全違規(guī)”。
值得注意的是,Anthropic的商業(yè)服務條款明確規(guī)定,禁止客戶未經其批準,使用Claude來“構建競爭產品或服務”或“訓練競爭AI模型”。而谷歌正是Anthropic的主要投資方之一。
面對外界的質疑,谷歌DeepMind(負責Gemini的開發(fā))的發(fā)言人McNamara回應稱,DeepMind確實會“對比模型輸出”作為評估的一部分,但否認了在Anthropic的模型上訓練Gemini的指控?!拔覀兇_實會在某些情況下,按照行業(yè)慣例,對比模型輸出來進行評估,”McNamara表示,“然而,關于我們使用Anthropic模型訓練Gemini的說法,是完全不準確的?!?/p>