repo

有一个公开可用的 repo,你可以使用它来使用 RL 训练 DeepSeek R1-Zero 风格的模型。

目前正在使用它 — 效果非常好!

看到推理的出现真是令人疯狂,即使是在 3B 模型规模上。
https://github.com/Jiayi-Pan/TinyZero