鲁大师在线影院免费观看,久久精品国产福利国产秒拍

<span id="tkpuc"><rp id="tkpuc"><track id="tkpuc"></track></rp></span>

<option id="tkpuc"><rp id="tkpuc"><track id="tkpuc"></track></rp></option>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

從高光到塌房，Meta Llama 4 遭遇驚魂72小時(shí)

2025-04-09 09:31

都是DeepSeek逼的？

開(kāi)源大模型 Llama 4 的翻車還在持續(xù)發(fā)酵。

4 月 8 日，作為大語(yǔ)言模型「權(quán)威榜單之一」的 Chatbot Arena（民間俗稱「大模型競(jìng)技場(chǎng)」）發(fā)布了一則語(yǔ)氣罕見(jiàn)嚴(yán)肅的聲明。面對(duì)社群對(duì)于 Meta 新模型 Llama 4 排名的質(zhì)疑，官方表示將公開(kāi) 2000 多場(chǎng)真人對(duì)比測(cè)試的完整數(shù)據(jù)，并罕見(jiàn)點(diǎn)名 Meta：

「Meta 應(yīng)該更清楚地表明『Llama-4-Maverick-03-26-Experimental』是一個(gè)作為人類偏好進(jìn)行優(yōu)化的定制化模型。我們正在更新排行榜的策略，以避免此類混淆再次發(fā)生�！�

截屏2025-04-08 20.19.51.png

圖/ X

這條聲明不只是澄清，一定程度上也是對(duì)整個(gè)大模型行業(yè)的一記警鐘。

Chatbot Arena 由加州大學(xué)伯克利分校發(fā)起，是當(dāng)前大模型評(píng)測(cè)中可能最具行業(yè)影響力的「真人盲測(cè)」排行榜，核心的機(jī)制是通過(guò)讓開(kāi)發(fā)者和 AI 愛(ài)好者會(huì)在平臺(tái)上用相同問(wèn)題向兩款模型提問(wèn)，對(duì)比回答內(nèi)容并投票打分。

而這種「真人盲測(cè)」的機(jī)制，讓 Chatbot Arena 有別于其他任何基準(zhǔn)測(cè)試，也成為了外界最為信賴的大模型排行榜。可以說(shuō)，一款模型是否登上「Chatbot Arena 排行榜」前列，在一定程度上直接影響其在媒體和開(kāi)發(fā)者群體中的口碑與采納率。

正因如此，當(dāng) Meta 在 4 月 5 日發(fā)布其最新一代開(kāi)源大模型 Llama 4，隨后快速?zèng)_上Chatbot Arena 排行榜第二，力壓一眾頂級(jí)大模型，僅次于 Google 前腳發(fā)布的 Gemini 2.5 Pro，自然也就引起了所有人的好奇和期待。

但很快，社區(qū)發(fā)現(xiàn)這一版本是未公開(kāi)、定制化調(diào)優(yōu)的「實(shí)驗(yàn)?zāi)Ｐ汀�，而并�?Meta 開(kāi)源的正式版。于是，爭(zhēng)議爆發(fā)：這算不算「刷榜」？Chatbot Arena 是否被利用為營(yíng)銷工具？Meta 為什么要這樣操作？

更糟的是，在部分官方?jīng)]有展示的專業(yè)基準(zhǔn)測(cè)試中，Llama 4 表現(xiàn)也不盡如人意，幾乎墊底。不少第一批嘗試的用戶也在 Reddit、X 等社交平臺(tái)上發(fā)文表達(dá)了失望，有人就在發(fā)帖中提到 Llama 4 在編程能力上的不盡如人意，并指出：

「考慮到 Llama-4-Maverick 有 402B 的參數(shù)量，我為什么不直接使用 DeepSeek-V3-0324 呢？或者 Qwen-QwQ-32B 可能更合適——雖然性能相似，但它的參數(shù)量只有 32B�！�

截屏2025-04-08 20.28.23.png

圖/ Reddit

這讓人不禁疑惑，曾經(jīng)被開(kāi)源陣營(yíng)寄予厚望、憑借 Llama 2 和 Llama 3 逐漸建立口碑的 Meta，為什么就在 Llama 4 翻了車？

從高光到塌房，Llama 4的72小時(shí)驚魂

時(shí)間回到 4 月 5 日，Meta 在官方博客上發(fā)布《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》一文，正式宣布 Llama 4 系列模型面向社區(qū)開(kāi)源。

這一次，Meta 公開(kāi)了最新一代模型的三個(gè)版本：Llama 4 Scout、Llama 4 Maverick、還在訓(xùn)練中的「教師模型」Llama 4 Behemoth，均首次采用了混合專家（MoE）架構(gòu)。

圖/ Meta

其中最主流、最受關(guān)注的 Maverick 版本，是擁有 128 個(gè)「專家」的 170 億活躍參數(shù)模型（總參數(shù)為 4000 億），Meta 將其描述為「同類最佳的多模態(tài)模型」，強(qiáng)調(diào)其在多方面超過(guò)了 Gemini 2.0 與 GPT-4o，在編碼和推理方面比 Deepseek 3.1 更有競(jìng)爭(zhēng)力。

但就在 Llama 4 發(fā)布不久，情況迅速脫離了 Meta 的預(yù)期。

在社區(qū)層面，首批用戶對(duì) Llama 4 的表現(xiàn)并不買賬。在多個(gè)測(cè)試中，尤其是在需要代碼能力和嚴(yán)謹(jǐn)邏輯推理的場(chǎng)景中，Llama 4 的表現(xiàn)并沒(méi)有兌現(xiàn)其超越 GPT、DeepSeek 的表現(xiàn)。包括在 Aider Chat 提供的 Polyglot 編程測(cè)試中，Maverick 版本的正確率僅為 16%，處于排行榜末尾。

不僅與其龐大的參數(shù)體量完全不符，甚至落后于規(guī)模更小的開(kāi)源模型，比如 Google Gamma 。這種結(jié)果讓不少開(kāi)發(fā)者大感意外，也與官方宣傳形成了強(qiáng)烈反差。

圖/ Chatbot Arena

風(fēng)評(píng)下滑之際，更嚴(yán)厲的質(zhì)疑也接踵而至——Llama 4 是否使用了公開(kāi)測(cè)試集進(jìn)行訓(xùn)練？是否針對(duì)通用基準(zhǔn)的 Chatbot Arena 針對(duì)性優(yōu)化？這些質(zhì)疑都在技術(shù)社區(qū)迅速傳播、發(fā)酵，包括 Chatbot Arena 在聲明中盡管并未使用「作弊」等字眼，但字里行間的語(yǔ)氣已足夠強(qiáng)硬和不滿。

尤其是中文移民社區(qū)「一畝三分地」上，自稱提交辭呈、要求從 Llama 4 技術(shù)報(bào)告中刪除名字的「Meta 員工」發(fā)帖表示，隨著 Deadline（截止日期）的逼近，Meta 最終選擇了將各個(gè)基準(zhǔn)測(cè)試的測(cè)試集混合在 Post-Training「后訓(xùn)練」（對(duì)應(yīng)大模型的「預(yù)訓(xùn)練」階段）之中。

不過(guò) Meta 團(tuán)隊(duì)很快出面做了澄清，一位經(jīng)手「后訓(xùn)練」的 Meta GenAI 成員實(shí)名（Licheng Yu）表示：

「這兩天虛心聆聽(tīng)各方 feedback（比如 coding、creative writing 等缺陷必須改進(jìn)）希望能在下一版有提升。但為了刷點(diǎn)而 overfit 測(cè)試集我們從來(lái)沒(méi)有做過(guò)，實(shí)名 LichengYu，兩個(gè) oss model 的 post training 有經(jīng)手我這邊請(qǐng)告知哪條 prompt 是測(cè)試集選出來(lái)放進(jìn)訓(xùn)練集的我給你磕一個(gè)+道歉！」

截屏2025-04-08 20.36.36.png

圖/ Licheng Yu

公開(kāi)資料顯示，Licheng Yu（虞立成）本科畢業(yè)于上海交通大學(xué)，2014 年獲佐治亞理工學(xué)院和上海交通大學(xué)雙碩士學(xué)位，2019 年獲北卡羅來(lái)納大學(xué)教堂山分校計(jì)算機(jī)科學(xué)博士學(xué)位，2023 年 6 月至今在 Meta 擔(dān)任研究科學(xué)家經(jīng)理，并參與了 Llama 3、Llama 4 項(xiàng)目。

同時(shí)，負(fù)責(zé) Meta GenAI 的副總裁 Ahmad Al-Dahle 也在 X 平臺(tái)明確表示，「Meta 沒(méi)有在測(cè)試集上訓(xùn)練 Llama 4。」而針對(duì) Llama-4-Maverick-03-26-Experimental，Meta 也在爭(zhēng)議發(fā)生后選擇了發(fā)布開(kāi)源版本，以回應(yīng)外界的批評(píng)。

截屏2025-04-08 20.38.24.png

圖/ X

但這些回應(yīng)顯然都沒(méi)能回避掉一個(gè)問(wèn)題：Llama 4 的真實(shí)能力。事實(shí)上，不管是 Licheng Yu，還是 Ahmad Al-Dahle，都在駁斥部分質(zhì)疑的同時(shí)承認(rèn)了 Llama 4 在性能存在的問(wèn)題。

作為開(kāi)源陣營(yíng)中曾經(jīng)「最有希望挑戰(zhàn) OpenAI」的旗手，Llama 4 原本承載著開(kāi)發(fā)者與產(chǎn)業(yè)界的高度期待。但現(xiàn)在，它卻在發(fā)布一周內(nèi)從「高光」跌入「信任危機(jī)」，成為大模型競(jìng)賽中一次罕見(jiàn)的口碑「滑鐵盧」。

DeepSeek加速開(kāi)源，Meta被逼到失速

如果只看表面，這次 Llama 4 的口碑翻車，似乎充滿了戲劇張力——匿名離職員工爆料稱，Meta 高層為了趕上內(nèi)部設(shè)定的 Deadline，要求將各大測(cè)試集混入「后訓(xùn)練」，只為「一個(gè)能看的結(jié)果」。甚至還傳言，負(fù)責(zé) AI 的副總裁 Joelle Pineau 也因反對(duì)這一做法而離職。

不過(guò)從目前公開(kāi)的信息來(lái)看，這些說(shuō)法經(jīng)不起推敲。關(guān)于使用測(cè)試集進(jìn)行后訓(xùn)練一事，前文的回應(yīng)其實(shí)已經(jīng)基本澄清。而 Joelle Pineau 的離職發(fā)生在發(fā)布前兩天，但她并不負(fù)責(zé)生成式 AI 團(tuán)隊(duì)，而是領(lǐng)導(dǎo) Meta Fundamental AI Research（FAIR）研究部門，與 Llama 4 項(xiàng)目并無(wú)直接關(guān)聯(lián)。

發(fā)布前幾天離職的 Joelle Pineau，圖/ Meta

在辟除這些輿論雜音之后，真正的問(wèn)題才浮出水面。追根究底，Llama 4 的問(wèn)題，不在于造假，而在于開(kāi)源大模型競(jìng)爭(zhēng)加劇下的失速。

過(guò)去兩年，Meta 憑借 Llama 2 和 Llama 3，逐步在開(kāi)源模型市場(chǎng)上建立起「領(lǐng)先、可靠」的認(rèn)知。然而到了 Llama 4，情況已經(jīng)發(fā)生了巨大的變化，DeepSeek V3/R1 的發(fā)布扭轉(zhuǎn)了開(kāi)源與閉源模型的差距，并且大大加速了開(kāi)源模型的發(fā)展速度。

這讓原本作為「開(kāi)源領(lǐng)導(dǎo)者」的 Llama 面臨更大的壓力。

盡管我們認(rèn)為前文爆料很多經(jīng)不起推敲，但有一點(diǎn)卻是現(xiàn)實(shí)：Llama 4 確實(shí)有 Deadline。這一點(diǎn)從 Llama 4 Behemoth 還在訓(xùn)練中就得以窺見(jiàn)，而且在參數(shù)規(guī)模膨脹、架構(gòu)復(fù)雜化（MoE）的同時(shí)，Llama 4 很可能沒(méi)有留出足夠的測(cè)試和改進(jìn)時(shí)間，才導(dǎo)致發(fā)布后不穩(wěn)定的性能表現(xiàn)。

圖/ Meta

此外，Meta 也沒(méi)能控制住動(dòng)作的變形。Llama-4-Maverick-03-26-Experimental 針對(duì)對(duì)話模式的優(yōu)化本身無(wú)可厚非，但「首發(fā)」Chatbot Arena 的目的卻是路人皆知。我們也不知道，這個(gè)特調(diào)版本又犧牲了哪些？

而從目前來(lái)看，Meta 的做法顯然錯(cuò)了，經(jīng)過(guò)能在發(fā)布之處獲得更高的期待、更多的關(guān)注，但之后的實(shí)際表現(xiàn)不僅讓人更加失望，也打破了用戶對(duì) Llama 系列「領(lǐng)先、可靠」的認(rèn)知。

怎么看都是輸。

Meta 當(dāng)然還有機(jī)會(huì)補(bǔ)救。只是，它首先必須正面面對(duì) DeepSeek、Qwen、Gamma 等其他大模型已經(jīng)崛起、甚至超越自己的現(xiàn)實(shí)，才能談重整河山。

來(lái)源：雷科技

原文標(biāo)題 : 從高光到塌房，Meta Llama 4 遭遇驚魂72小時(shí)

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

即日-6.16
立即報(bào)名>> 【在線會(huì)議】olution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
6月20日
立即下載>> 【白皮書】精準(zhǔn)測(cè)量安全高效——福祿克光伏行業(yè)解決方案
7月3日
立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
7月22-29日
立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
7.30-8.1
火熱報(bào)名中>> 全數(shù)會(huì)2025（第六屆）機(jī)器人及智能工廠展
7月31日
免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

99久久免费精品国产对白

中文字字幕在线中文乱码6互动交流久久久性爱视频性久久久久美女黄免费 97久久精品人人

<blockquote id="sqcch"><rp id="sqcch"></rp></blockquote>

<span id="sqcch"></span>

<blockquote id="sqcch"><delect id="sqcch"><track id="sqcch"></track></delect></blockquote>

<span id="sqcch"><delect id="sqcch"><track id="sqcch"></track></delect></span>