Hagicode 中使用模型的对比和评价
评测范围与方法
Section titled “评测范围与方法”- 评测目标:基于 HagiCode 项目中的真实集成经验,给出模型选型参考。
- 测试任务类型:前端组件实现、后端 API 重构、测试用例补全、文档生成。
- 评价维度:效率完成度(是否能稳定完成任务)与性价比(成本 + 国内可用性)。
测试时间与场景说明
Section titled “测试时间与场景说明”- 最近测试时间:2026-03-08
- 测试周期:2026-03-01 至 2026-03-08
- 样本说明:基于 HagiCode 团队真实研发任务的感性评估,不代表厂商官方 benchmark。
- 适用边界:结论主要适用于本项目当前工作流与工程约束,不等同于通用结论。
本文仅覆盖已实测模型
Section titled “本文仅覆盖已实测模型”以下模型均为我们在项目中实际集成并使用过的模型:
- GLM 4.7
- GLM 5
- 千问 3.5
- 千问 Code Next
- GPT 5.3 Codex
- GPT 5.4
- Minimax M2.5
模型对比总览(实测)
Section titled “模型对比总览(实测)”| 模型名称 | 测试时间 | 效率完成度 | 性价比 | 主要体验 |
|---|---|---|---|---|
| GPT 5.4 | 2026-03-08 | 很高 | 中高 | 能稳定超出要求,工程实践和实现质量都很强 |
| GPT 5.3 Codex | 2026-03-08 | 很高 | 中高 | 在要求范围内完成度高,工程化输出质量优秀 |
| GLM 5 | 2026-03-08 | 高 | 高 | 可较顺利完成任务,综合表现稳定 |
| GLM 4.7 | 2026-03-08 | 高 | 很高 | 能比较顺利完成要求,成本控制更友好 |
| Minimax M2.5 | 2026-03-08 | 中高 | 最高 | 能完成多数目标,但容易出现代码闭合错误 |
| 千问 3.5 / Code Next | 2026-03-08 | 中 | 中高 | 在我们场景下完成度相对靠后 |
效率完成度评价(作者推荐顺序)
Section titled “效率完成度评价(作者推荐顺序)”按“完成任务质量 + 工程实践效果”排序:
- GPT 5.4
- GPT 5.3 Codex
- GLM 5
- GLM 4.7
- Minimax M2.5
- 千问(3.5 / Code Next)
- 除千问外,其他模型在我们的项目任务中都能在一定程度上实现目标。
- GLM 4.7 及以上(GLM 4.7、GLM 5)整体可以比较顺利完成我们的要求。
- GPT 5.3 Codex 与 GPT 5.4 不仅能完成要求,通常还能给出更好的工程实践与实现效果。
- Minimax M2.5 的主要问题是更容易出现代码闭合错误(例如括号、结构块收口不完整),需要额外复核。
性价比评价(经济成本 + 国内可用性)
Section titled “性价比评价(经济成本 + 国内可用性)”按“成本收益比 + 在国内是否能顺利使用”优先排序:
- Minimax M2.5
- GLM 4.7
- GLM 5
- 千问 3.5 / Code Next
- GPT 5.3 Codex
- GPT 5.4
说明:该排序与效率完成度排序不同,主要反映经济成本与可获得性的现实约束。
- 质量优先:优先 GPT 5.4 / GPT 5.3 Codex。
- 均衡优先:优先 GLM 5 / GLM 4.7。
- 成本优先:优先 Minimax M2.5(但要加强代码闭合检查)。
- 落地策略:建议采用“高质量模型处理关键任务 + 高性价比模型处理常规任务”的分层路由。
未测试模型声明
Section titled “未测试模型声明”对于其他未在本文列出的模型,我们目前没有进行测试,也没有实际使用体验,因此不做评价。
如果有赞助者愿意提供相应模型资源,我们会结合真实工作流继续进行感性评估,并更新本文。