repo

awq · 2025 年1 月 30 日 10:23

有一个公开可用的 repo，你可以使用它来使用 RL 训练 DeepSeek R1-Zero 风格的模型。

目前正在使用它 — 效果非常好！

看到推理的出现真是令人疯狂，即使是在 3B 模型规模上。
https://github.com/Jiayi-Pan/TinyZero

话题		回复	浏览量
全球主流开源大模型互联网服务	3	307	2025 年3 月 2 日
DeepSeek R1 互联网服务	0	306	2025 年2 月 11 日
开源大模型学习场所	0	322	2024 年11 月 8 日
"? DeepSeek R1 本地部署 Web-UI，支持离线运行 ??" 互联网服务	8	292	2025 年1 月 30 日
dolphin-r1 互联网服务	1	292	2025 年2 月 1 日