欧美整片

DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻!AI大佬愤而离职,代码实测崩盘全网炸锅
你的位置:欧美整片 > 麻豆传媒 黑丝 > DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻!AI大佬愤而离职,代码实测崩盘全网炸锅
DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻!AI大佬愤而离职,代码实测崩盘全网炸锅
发布日期:2025-04-19 04:23    点击次数:98

DSC第一季高清 Llama 4考试舞弊爆出惊天丑闻!AI大佬愤而离职,代码实测崩盘全网炸锅

新智元报谈DSC第一季高清

裁剪:裁剪部 NXY

【新智元导读】Llama 4本该是AI圈的焦点,却成了大型翻车现场。开源首日,全网实测代码智商崩盘。更让东谈主忌惮的是,模子考试测试集被曝舞弊,里面职工告成请辞。

Meta前脚刚发Llama 4,后脚就有大佬请辞了!

一亩三分地的爆料贴称,经过反复考试后,Llama 4未能得到SOTA,致使与顶尖大模子实力悬殊。

为了蒙混过关,高层致使建议:

在后考试阶段中,将多个benchmark测试集混入考试数据。

在后考试阶段中,将多个benchmark测试集混入考试数据。

]article_adlist-->

最终目标,让模子短期培植贪图,拿出来可以看起来可以的效能。

这位里面职工@dliudliu暗示,「我方根柢无法汲取这种作念法,致使离职信中明确条件——不要在Llama 4本事说明中挂名」。

另一方面,小扎给全员下了「死令」——4月底是Llama 4委派临了期限。

在一系列高压之下,已有高管提倡了离职。

网友Flavio Adamo使用推敲的教唆词,永别让Llama 4 Maveric和GPT-4o制作一个旋转多边形的动画。

可以看出,Llama 4 Maveric生成的多边形并不规定况兼莫得启齿。小球也不稳妥物理规矩,告成穿过多边形掉下去了。

比较之下GPT-4o制作的动画诚然也不好意思满,但至少要好得多。

致使,有东谈主告成曝出,Llama 4在LMarena上存在过拟合局势,有极大的「舞弊」嫌疑。

而如今,里面职工爆料,进一步说明了网友的猜念念。

沃顿商学院讲授Ethan Mollick一语中的,「若是你经常使用 AI 模子,不难分辨出哪些是针对基准测试进行优化的,哪些是确凿的紧要杰出」。

不外,另一位里面职工称,并莫得碰到这类情况,不如让枪弹飞一刹。

里面职工爆料,Llama 4考试舞弊?

几位AI盘问东谈主员在外交媒体上皆「吐槽」归并个问题,Meta在其公告中提到LM Arena上的Maverick是一个「践诺性的聊天版块」。

若是看得仔细极少,在Llama官网的性能对比测试图的最底下一瞥,写着「Llama 4 Maverick optimized for conversationality.」

翻译过来便是「针对对话优化的Llama 4 Maverick」——似乎有些「鸡贼」。

这种「区别对待」的会让拓荒东谈主员很难准确忖度该模子在特定高下文中的阐扬。

AI的盘问东谈主员不雅察到可公开下载的Maverick与LM Arena上托管的模子在活动上存在显赫各异。

而就在今天上昼,还是有东谈主爆料Llama 4的考试经过存在严重问题!

即Llama 4里面考试屡次仍然莫得达到开源SOTA基准。

Meta的指令层决定在后考试经过中搀和各式基准测试集——让Llama 4「背题」以盼望在测试中得到「好收货」。

这个爆料的原始开头是「一亩三分地」,把柄对话,爆料者很可能来自于Meta公司里面。

在线成人影片

对话中提到的Meta AI盘问部副总裁Joelle Pineau也央求了5月底离职。(不外,也有网友称并非是与Llama4筹议)

可是把柄Meta的组织架构体系,Pineau是FAIR的副总裁,而FAIR骨子上是Meta里面与GenAI澈底闲逸的组织,GenAI才是老成Llama名目标组织。

GenAI的副总裁是Ahmad Al-Dahle,他并莫得离职。

Llama 4才刚刚发布一天,就出现如斯重磅的音讯,让畴昔显得扑朔迷离。

代码翻车,网友大失所望

在昨天网友的实测中,褒贬照旧有好有坏。 可是往常一天进行更多的测试后,更多的网友抒发了对Llama 4的不悦。 在Dr_Karminski的一篇热帖中,他说Llama-4-Maverick——总参数402B的模子——在编码智商方面冒昧只可与 Qwen-QwQ-32B十分。 Llama-4-Scout——总参数109B的模子——八成与Grok-2或Ernie 4.5雷同。

在褒贬中,网友反馈了这个判断。

有东谈主说Llama 4的阐扬比Gemma 3 27B还要差。

有东谈主以为Llama 4的阐扬致使和Llama 3.2一样莫得任何杰出,也无法完成写诗。

其他用户在测试后也抒发了相似的不雅点,Llama 4有点不稳妥预期。

网友Deedy也抒发了对Llama 4的失望,称其为「一个灾祸的编程模子」。

他暗示,Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中阐扬不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

他还给出了贴出了Llama 4两个模子的一张测试排行,效能表示这两个新发布的模子远远莫得达到顶尖的性能。

网友anton说,Llama 4「确凿有点令东谈主失望」。

他暗示我方不会用它来赞助编码,而Llama 4的定位有点莫名。

anton以为Llama 4的两个模子太大了,不太好腹地部署。他建议Meta应该推出性能优秀的小模子,而不是去追求成为SOTA。

「因为现在他们根柢作念不到。」他写谈。

参考尊府:

https://x.com/natolambert/status/1908959159959027903

https://x.com/karminski3/status/1908841453780177244

https://x.com/abacaj/status/1908884059264086520DSC第一季高清