哈希游戏- 哈希游戏平台- 哈希游戏官方网站
通过观察,Stage 1 数据的多样性高,但质量较低,而 Stage 2 数据由高质量的代码特定 SFT 数据组成。两阶段 SFT 策略使模型在 Stage 1 中获得广泛的能力,随后在 Stage 2 中针对代码相关任务进行针对性提升。此外,研究团队使用 Code Arena 测试集模拟真实环境中的用户代码相关提示,并用 GPT-4 作为基准,评估模型的性能。结果展示了两阶段 SFT 训练策略在下游 Benchmark 上与体现真实应用能力的 Code Arena 上皆有收益。