Meta开源320亿参数代码世界模型CWM：它真的“懂”代码怎么跑

人工智能

发布日期: 2025-09-26

作者: okeeper

文章字数: 1.5k

阅读时长: 5 分

阅读次数:

Meta FAIR团队刚刚扔出一颗重磅炸弹——Code World Model（CWM），一个320亿参数、支持131k上下文的密集型语言模型，专为代码生成和推理而生。更关键的是，它不是又一个“会写代码的LLM”，而是首个系统性引入“世界模型”概念的代码大模型。

简单说：CWM不仅能写代码，还能“脑内模拟”这段代码跑起来时变量怎么变、函数怎么调、哪里会崩——就像程序员用pdb单步调试那样。

这事儿有多重要？看数据就知道：在权威代码评测SWE-bench Verified上，CWM拿下65.8分，碾压所有开源同规模模型，直逼GPT-4水平。

模型性能对比图

连Yann LeCun本人都亲自转发了项目发布消息，还顺手回怼了一个质疑者：“这是编码，不是ASI（人工通用智能）。”
LeCun回应质疑

为什么现有代码模型“写得对但跑不通”？

当前主流代码大模型（比如CodeLlama、DeepSeek-Coder）本质上还是“文本预测器”。它们把代码当成一串字符序列，靠统计规律猜下一个token是什么。结果就是：生成的代码语法正确、结构漂亮，但一跑就错——变量未定义、边界条件漏判、副作用没考虑。

问题出在哪？它们不懂“执行”。

CWM团队一针见血：如果模型连“变量x在第5行被赋值为3”这种动态状态变化都不知道，怎么可能写出可靠代码？

于是，他们干了件狠事：让模型直接学习“代码执行轨迹”。

比如下面这个统计"strawberry"中’r’个数的函数，CWM不仅能生成代码，还能一步步追踪执行状态：

代码执行追踪

这种能力让CWM实现了三大突破：

CWM能在生成代码的同时，模拟执行路径，预判空指针、越界访问、死循环等常见错误。相当于内置了一个“神经调试器”。

它能自动生成测试用例，发现失败后尝试多种修复策略——写→测→改→再测，形成完整开发闭环。

面对编程竞赛题或数学问题，CWM会先规划函数结构、变量设计，再结合执行预测逐步生成验证，展现出类人的多步推理能力。

CWM不是凭空冒出来的。它的架构和训练流程都经过精心设计。

模型参数：32B密集模型，64层Transformer，使用SwiGLU激活函数，支持131k上下文——足够塞进整个中型项目的代码库。

CWM参数表

训练分三步走：

预训练：8T tokens通用语料（30%为代码），上下文8k，打好基础。
中期训练（关键！）：5T tokens的“世界建模”数据，包括：
- 数千万Python函数的执行轨迹（变量状态变化记录）
- 300万条智能体在Docker中真实修复Bug的交互日志
- 执行过程的自然语言描述（便于泛化）
后训练：100B tokens监督微调 + 172B tokens多任务强化学习，覆盖SWE-bench、编程竞赛、数学题等真实任务。

三阶段训练流程