跳转到内容

Hagicode 中使用模型的对比和评价

  • 评测目标:基于 HagiCode 项目中的真实集成经验,给出模型选型参考。
  • 测试任务类型:前端组件实现、后端 API 重构、测试用例补全、文档生成。
  • 评价维度:效率完成度(是否能稳定完成任务)与性价比(成本 + 国内可用性)。
  • 最近测试时间:2026-03-08
  • 测试周期:2026-03-01 至 2026-03-08
  • 样本说明:基于 HagiCode 团队真实研发任务的感性评估,不代表厂商官方 benchmark。
  • 适用边界:结论主要适用于本项目当前工作流与工程约束,不等同于通用结论。

以下模型均为我们在项目中实际集成并使用过的模型:

  • GLM 4.7
  • GLM 5
  • 千问 3.5
  • 千问 Code Next
  • GPT 5.3 Codex
  • GPT 5.4
  • Minimax M2.5
模型名称测试时间效率完成度性价比主要体验
GPT 5.42026-03-08很高中高能稳定超出要求,工程实践和实现质量都很强
GPT 5.3 Codex2026-03-08很高中高在要求范围内完成度高,工程化输出质量优秀
GLM 52026-03-08可较顺利完成任务,综合表现稳定
GLM 4.72026-03-08很高能比较顺利完成要求,成本控制更友好
Minimax M2.52026-03-08中高最高能完成多数目标,但容易出现代码闭合错误
千问 3.5 / Code Next2026-03-08中高在我们场景下完成度相对靠后

效率完成度评价(作者推荐顺序)

Section titled “效率完成度评价(作者推荐顺序)”

按“完成任务质量 + 工程实践效果”排序:

  1. GPT 5.4
  2. GPT 5.3 Codex
  3. GLM 5
  4. GLM 4.7
  5. Minimax M2.5
  6. 千问(3.5 / Code Next)
  • 除千问外,其他模型在我们的项目任务中都能在一定程度上实现目标。
  • GLM 4.7 及以上(GLM 4.7、GLM 5)整体可以比较顺利完成我们的要求。
  • GPT 5.3 Codex 与 GPT 5.4 不仅能完成要求,通常还能给出更好的工程实践与实现效果。
  • Minimax M2.5 的主要问题是更容易出现代码闭合错误(例如括号、结构块收口不完整),需要额外复核。

性价比评价(经济成本 + 国内可用性)

Section titled “性价比评价(经济成本 + 国内可用性)”

按“成本收益比 + 在国内是否能顺利使用”优先排序:

  1. Minimax M2.5
  2. GLM 4.7
  3. GLM 5
  4. 千问 3.5 / Code Next
  5. GPT 5.3 Codex
  6. GPT 5.4

说明:该排序与效率完成度排序不同,主要反映经济成本与可获得性的现实约束。

  • 质量优先:优先 GPT 5.4 / GPT 5.3 Codex。
  • 均衡优先:优先 GLM 5 / GLM 4.7。
  • 成本优先:优先 Minimax M2.5(但要加强代码闭合检查)。
  • 落地策略:建议采用“高质量模型处理关键任务 + 高性价比模型处理常规任务”的分层路由。

对于其他未在本文列出的模型,我们目前没有进行测试,也没有实际使用体验,因此不做评价。

如果有赞助者愿意提供相应模型资源,我们会结合真实工作流继续进行感性评估,并更新本文。