跳转到内容

Hagicode 中使用模型的对比和评价

评测范围与方法

评测目标：基于 HagiCode 项目中的真实集成经验，给出模型选型参考。
测试任务类型：前端组件实现、后端 API 重构、测试用例补全、文档生成。
评价维度：效率完成度（是否能稳定完成任务）与性价比（成本 + 国内可用性）。

测试时间与场景说明

最近测试时间：2026-03-08
测试周期：2026-03-01 至 2026-03-08
样本说明：基于 HagiCode 团队真实研发任务的感性评估，不代表厂商官方 benchmark。
适用边界：结论主要适用于本项目当前工作流与工程约束，不等同于通用结论。

本文仅覆盖已实测模型

以下模型均为我们在项目中实际集成并使用过的模型：

GLM 4.7
GLM 5
千问 3.5
千问 Code Next
GPT 5.3 Codex
GPT 5.4
Minimax M2.5

模型对比总览（实测）

模型名称	测试时间	效率完成度	性价比	主要体验
GPT 5.4	2026-03-08	很高	中高	能稳定超出要求，工程实践和实现质量都很强
GPT 5.3 Codex	2026-03-08	很高	中高	在要求范围内完成度高，工程化输出质量优秀
GLM 5	2026-03-08	高	高	可较顺利完成任务，综合表现稳定
GLM 4.7	2026-03-08	高	很高	能比较顺利完成要求，成本控制更友好
Minimax M2.5	2026-03-08	中高	最高	能完成多数目标，但容易出现代码闭合错误
千问 3.5 / Code Next	2026-03-08	中	中高	在我们场景下完成度相对靠后

效率完成度评价（作者推荐顺序）

按“完成任务质量 + 工程实践效果”排序：

GPT 5.4
GPT 5.3 Codex
GLM 5
GLM 4.7
Minimax M2.5
千问（3.5 / Code Next）

关键结论

除千问外，其他模型在我们的项目任务中都能在一定程度上实现目标。
GLM 4.7 及以上（GLM 4.7、GLM 5）整体可以比较顺利完成我们的要求。
GPT 5.3 Codex 与 GPT 5.4 不仅能完成要求，通常还能给出更好的工程实践与实现效果。
Minimax M2.5 的主要问题是更容易出现代码闭合错误（例如括号、结构块收口不完整），需要额外复核。

性价比评价（经济成本 + 国内可用性）

按“成本收益比 + 在国内是否能顺利使用”优先排序：

Minimax M2.5
GLM 4.7
GLM 5
千问 3.5 / Code Next
GPT 5.3 Codex
GPT 5.4

说明：该排序与效率完成度排序不同，主要反映经济成本与可获得性的现实约束。

选型建议

质量优先：优先 GPT 5.4 / GPT 5.3 Codex。
均衡优先：优先 GLM 5 / GLM 4.7。
成本优先：优先 Minimax M2.5（但要加强代码闭合检查）。
落地策略：建议采用“高质量模型处理关键任务 + 高性价比模型处理常规任务”的分层路由。

未测试模型声明

对于其他未在本文列出的模型，我们目前没有进行测试，也没有实际使用体验，因此不做评价。

如果有赞助者愿意提供相应模型资源，我们会结合真实工作流继续进行感性评估，并更新本文。