Meta 最新基础模型 Llama 4 发布 36 小时后,评论区居然是这个画风:
失望,非常失望
不知道他们后训练怎么搞的,总之不太行
在 [ 各种测试 ] 2 中失败
……
最直观的要数经典 " 氛围编程 " 小球反弹测试,小球直接穿过墙壁掉下去了。
发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。
有网友称自己已向 Meta GenAI 部门提交提交辞职,并要求不要署名在 Llama 4 的技术报告上。
测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写 1000 字,重复 8 轮以上。
由 Claude-Sonnet 3.7 来当裁判,先对每个章节单独打分,再对整个作品打分。
Llama 4 的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。
在这条爆料中,Deepseek v3 出来之后,训练中的 Llama4 就显得落后了,中层管理的薪水都比 DeepSeek V3 的训练成本都高,Meta 内部陷入恐慌模式。
[ 1 ] https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[ 2 ] https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[ 3 ] https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894
下一篇:今日A股大盘实时行情分析
有话要说...