有一个公开可用的 repo,你可以使用它来使用 RL 训练 DeepSeek R1-Zero 风格的模型。
目前正在使用它 — 效果非常好!
看到推理的出现真是令人疯狂,即使是在 3B 模型规模上。 https://github.com/Jiayi-Pan/TinyZero