重點快速看:
・手機特別針對跑分「最佳化」的陋習,最終也來到 AI 模型競爭之中。
・Meta 最新 Llama 4 爆發採用針對跑分的特製版本。
這兩年 LLM(大型語言模型)AI 模型可說是百花齊放。
跟隨在取得生成式 AI 最大名氣的 OpenAI ChatGPT 之後的一票由大廠所訓練的各式模型。近來可能也因為橫空出世的 DeepSeek 深度求索等黑馬的竄出,導致有了不少額外的壓力。
甚至可能因為過度在意奪取媒體關注,導致對於所謂的 Benchmark 跑分數據有過度的執念,甚至做出了一些「奇怪的」動作。
▲圖片來源:@ZainHasan6
沒錯,說到對於效能跑分過度執著可能衍伸出的狀況。八九不離十就是針對跑分的作弊行為方面。
不過這次引爆爭議的 Meta 最新 Llama 4 中型模型 Maverick,倒是狀況有些微妙 - 因為他們的態度算是蠻開誠布公的(咦)。一開始就在針對 LMArena 跑分的圖表備註裡,提到自己有特別針對此測試進行最佳化/優化/Optimized。
▲圖片來源:LMArena
在 Meta 新聞稿中針對 LMArena ELO 的效能標註分佈中,他們最新的 Llama-4-Maverick-03-26-Experimental 取得了 1,417 的高分。雖然低於 Gemini 2.5 Pro,但整個高於 OpenAI 4o 模型,也海放了 Gemini 2.0 Flash。
只是此圖表被眼尖的網友發現備註之中,提到了:「LMArena testing was conducted using Llama 4 Maverick optimized for conversationality.(LMArena 測試使用經最佳化提升對話能力的 Llama 4 Maverick 進行)」也因為如此,被質疑 Llama 4 有跑分作弊的嫌疑。
對此,Meta 發言人 Ashley Gabriel 對外媒 The Verge 的詢問提到包括他們的模型確實會有客製化的測試版本,也已經釋出了後續的版本;這次爭議滿滿的 Llama-4-Maverick-03-26-Experimental 確實是對應聊天最佳化的版本,並且「也在 LMArena 表現良好。」
簡言之,就是爽快地承認有特製版本,但感覺較偏向於「剛好很適合」LMArena 跑分的情境而已。
了不起,誠實!不過 Llama 4 的實際表現...
是說,這一整齣「可能有作弊」的猜測。在包括 LMArena 官方已經宣告將深入了解狀況,並可能做出排行的調整。讓人感覺在各說各話之餘,大概也就會在爭吵之中漸漸落幕了吧 - 事實上,以個人的觀點來說,目前的模型刷分對於一般人而言真的也有點無感了。
但也可能是因為這樣,大家才會更想搶到最前面?
不過在這個時間點,卻傳出了 Llama 4 Maverick 在實際使用的情況下表現令使用者失望,進而被認為這坐實了謠傳 Meta 有混入測試集來提高跑分分數的不當行為。這個認為「Llama 4 存在有嚴重的問題」的發文如下:
經過反覆訓練,其實內部模型的表現依然未能達到開源 SOTA,甚至與之相差甚遠。公司領導層建議將各個 benchmark 的測試集混合進 post-training 過程中,目的是希望能夠在各項指標上交差,拿出一個「看起來可以」的結果。而如果未能在 4 月底設定的 deadline 前達成目標,後果將不堪設想。
昨日 Llama 4 發布之後,X 和 Reddit 上已經有很多人實測結果非常差。作為一名目前也在學術界的人,我實在無法接受這種做法,因此已經提交離職申請,並且明確表示之後 Llama 4 的 Technical Report 中不要署上我的名字。Meta 的 VP of AI 也是因為這個原因辭職的。
對此官方則是嚴正指出「絕沒有這樣做。」並且偏向於將目前的狀況歸納在待修正的 Bug 問題方面。
結語
說真的 Meta 一開始就承認有對應跑分標準提供最佳化模型的做法,其實還算是坦蕩。
只是終歸的來說,「跑分爭議終究還需(公正的)跑分解決」。這所有的狀況大概也就只能靠最終 LMArena 官方所測出來的跑分,才能真正有個結論。
個人認為,這次的爭議突顯了 AI 模型之間的進化戰爭,隨著各個模型版本之間的複雜化,已經導致有不少可以上下其手的模糊空間存在。
如果有人因為對於跑分的偏執等狀況,打破以往的道德默契去嘗試取得先機的話。顯然接下來這類的爭議與懷疑只會越來越多吧?說真的這樣也好啦,大家也不要都覺得把跑分當成唯一的參考標準,最終也還是要以實際運行並且應用這些模型的體驗才是最準確的囉。
--
圖片來源:Meta
引用來源:The Verge
本文章最後由 rOsS.W 於 2025-4-8 14:50 編輯
|