DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻！AI大佬愤而离职，代码实测崩盘全网炸锅

栏目分类

欧美整片: twitter 巨屌; 黑人巨屌; 巨屌; 黑丝少妇; 麻豆传媒黑丝; 黑丝做爱

热点资讯

DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻！AI大

户外内射河南女西宾资助学生，多年后患病被丈夫抛弃，学生为

猎U者星露谷物语成亲条目是什么星露谷物语成亲攻略详解

你的位置：欧美整片 > 麻豆传媒黑丝 > DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻！AI大佬愤而离职，代码实测崩盘全网炸锅

DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻！AI大佬愤而离职，代码实测崩盘全网炸锅

发布日期：2025-04-19 04:23 点击次数：98

DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻！AI大佬愤而离职，代码实测崩盘全网炸锅

新智元报谈DSC第一季高清

裁剪：裁剪部 NXY

【新智元导读】Llama 4本该是AI圈的焦点，却成了大型翻车现场。开源首日，全网实测代码智商崩盘。更让东谈主忌惮的是，模子考试测试集被曝舞弊，里面职工告成请辞。

Meta前脚刚发Llama 4，后脚就有大佬请辞了！

一亩三分地的爆料贴称，经过反复考试后，Llama 4未能得到SOTA，致使与顶尖大模子实力悬殊。

为了蒙混过关，高层致使建议：

在后考试阶段中，将多个benchmark测试集混入考试数据。

]article_adlist-->

最终目标，让模子短期培植贪图，拿出来可以看起来可以的效能。

这位里面职工@dliudliu暗示，「我方根柢无法汲取这种作念法，致使离职信中明确条件——不要在Llama 4本事说明中挂名」。

另一方面，小扎给全员下了「死令」——4月底是Llama 4委派临了期限。

在一系列高压之下，已有高管提倡了离职。

网友Flavio Adamo使用推敲的教唆词，永别让Llama 4 Maveric和GPT-4o制作一个旋转多边形的动画。

可以看出，Llama 4 Maveric生成的多边形并不规定况兼莫得启齿。小球也不稳妥物理规矩，告成穿过多边形掉下去了。

比较之下GPT-4o制作的动画诚然也不好意思满，但至少要好得多。

致使，有东谈主告成曝出，Llama 4在LMarena上存在过拟合局势，有极大的「舞弊」嫌疑。

而如今，里面职工爆料，进一步说明了网友的猜念念。

沃顿商学院讲授Ethan Mollick一语中的，「若是你经常使用 AI 模子，不难分辨出哪些是针对基准测试进行优化的，哪些是确凿的紧要杰出」。

不外，另一位里面职工称，并莫得碰到这类情况，不如让枪弹飞一刹。

里面职工爆料，Llama 4考试舞弊？

几位AI盘问东谈主员在外交媒体上皆「吐槽」归并个问题，Meta在其公告中提到LM Arena上的Maverick是一个「践诺性的聊天版块」。

若是看得仔细极少，在Llama官网的性能对比测试图的最底下一瞥，写着「Llama 4 Maverick optimized for conversationality.」

翻译过来便是「针对对话优化的Llama 4 Maverick」——似乎有些「鸡贼」。

这种「区别对待」的会让拓荒东谈主员很难准确忖度该模子在特定高下文中的阐扬。

AI的盘问东谈主员不雅察到可公开下载的Maverick与LM Arena上托管的模子在活动上存在显赫各异。

而就在今天上昼，还是有东谈主爆料Llama 4的考试经过存在严重问题！

即Llama 4里面考试屡次仍然莫得达到开源SOTA基准。

Meta的指令层决定在后考试经过中搀和各式基准测试集——让Llama 4「背题」以盼望在测试中得到「好收货」。

这个爆料的原始开头是「一亩三分地」，把柄对话，爆料者很可能来自于Meta公司里面。

在线成人影片

对话中提到的Meta AI盘问部副总裁Joelle Pineau也央求了5月底离职。（不外，也有网友称并非是与Llama4筹议）

可是把柄Meta的组织架构体系，Pineau是FAIR的副总裁，而FAIR骨子上是Meta里面与GenAI澈底闲逸的组织，GenAI才是老成Llama名目标组织。

GenAI的副总裁是Ahmad Al-Dahle，他并莫得离职。

Llama 4才刚刚发布一天，就出现如斯重磅的音讯，让畴昔显得扑朔迷离。

代码翻车，网友大失所望

在昨天网友的实测中，褒贬照旧有好有坏。可是往常一天进行更多的测试后，更多的网友抒发了对Llama 4的不悦。在Dr_Karminski的一篇热帖中，他说Llama-4-Maverick——总参数402B的模子——在编码智商方面冒昧只可与 Qwen-QwQ-32B十分。 Llama-4-Scout——总参数109B的模子——八成与Grok-2或Ernie 4.5雷同。

在褒贬中，网友反馈了这个判断。

有东谈主说Llama 4的阐扬比Gemma 3 27B还要差。

有东谈主以为Llama 4的阐扬致使和Llama 3.2一样莫得任何杰出，也无法完成写诗。

其他用户在测试后也抒发了相似的不雅点，Llama 4有点不稳妥预期。

网友Deedy也抒发了对Llama 4的失望，称其为「一个灾祸的编程模子」。

他暗示，Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中阐扬不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

他还给出了贴出了Llama 4两个模子的一张测试排行，效能表示这两个新发布的模子远远莫得达到顶尖的性能。

网友anton说，Llama 4「确凿有点令东谈主失望」。

他暗示我方不会用它来赞助编码，而Llama 4的定位有点莫名。

anton以为Llama 4的两个模子太大了，不太好腹地部署。他建议Meta应该推出性能优秀的小模子，而不是去追求成为SOTA。

「因为现在他们根柢作念不到。」他写谈。

参考尊府：

https://x.com/natolambert/status/1908959159959027903

https://x.com/karminski3/status/1908841453780177244

https://x.com/abacaj/status/1908884059264086520DSC第一季高清

上一篇：户外内射河南女西宾资助学生，多年后患病被丈夫抛弃，学生为酬报娶她为妻

下一篇：没有了