HagiCode 中的模型比較和評估
编辑此页- 目標:根據 HagiCode 的真實整合經驗提供模型選擇指導。
- 任務類型:前端元件實作、後端API重構、測試完成、文件產生。
- 評估軸:交付有效性(能否可靠地完成實際任務)和成本效益(成本+國內可用性)。
測試時間和場景說明
Section titled “測試時間和場景說明”- 最新測試日期:2026-03-08
- 測試期:2026-03-01 至 2026-03-08
- 樣本基礎:來自真實 HagiCode 工程工作流程的主觀評估,而不是供應商基準數據。
- 適用性:結論僅限於該專案目前的工作流程和限制。
本頁僅列出經過測試的型號
Section titled “本頁僅列出經過測試的型號”我們團隊實際整合並使用了以下模型:
- GLM 4.7
- GLM 5
- 酷文3.5
- Qwen 代碼 接下來
- GPT 5.3 Codex
- GPT 5.4
- 極小極大 M2.5
比較快照(測試型號)
Section titled “比較快照(測試型號)”| 型號 | 考試日期 | 交付效率 | 成本效益 | 主要經歷 |
|---|---|---|---|---|
| GPT 5.4 | 2026-03-08 | 非常高 | 中高 | 憑藉強大的工程品質經常超出基準要求 |
| GPT 5.3 Codex | 2026-03-08 | 非常高 | 中高 | 範圍內完成品質高,工程輸出強勁 |
| GLM 5 | 2026-03-08 | 高 | 高 | 整體性能穩定,滿足我們的要求 |
| GLM 4.7 | 2026-03-08 | 高 | 非常高 | 可靠的交付和更好的成本控制 |
| 極小極大 M2.5 | 2026-03-08 | 中高 | 最高 | 可以實現大多數目標,但程式碼關閉錯誤發生的頻率更高 |
| Qwen 3.5 / 代碼下一步 | 2026-03-08 | 中等 | 中高 | 在我們的場景中完成度排名較低 |
交付效果排名(作者推薦)
Section titled “交付效果排名(作者推薦)”按任務完成品質和工程實踐品質排名:
- GPT 5.4
- GPT 5.3 Codex
- GLM 5
- GLM 4.7
- 極小極大 M2.5
- Qwen(3.5 / 代碼下一步)
- 除了Qwen之外,所有其他測試模型都可以在一定程度上達到我們的目標結果。
- GLM 4.7+(GLM 4.7和GLM 5)大致上可以順利完成我們的要求。
- GPT 5.3 Codex和GPT 5.4不僅完成了要求,而且產生了更好的工程實踐和實施品質。
- Minimax M2.5 有一個重複的弱點:程式碼關閉錯誤(例如,不完整的括號/區塊關閉),因此需要額外審查。
性價比排名(成本+國內可用性)
Section titled “性價比排名(成本+國內可用性)”按經濟成本和在中國的實用性排名:
- 極小極大 M2.5
- GLM 4.7
- GLM 5
- Qwen 3.5 / 代碼下一步
- GPT 5.3 Codex
- GPT 5.4
注意:此排名有意與交付效率排名不同。
- 品質第一:選擇 GPT 5.4 / GPT 5.3 Codex。
- 平衡策略:選擇GLM 5 / GLM 4.7。
- 成本優先:選擇 Minimax M2.5(具有更嚴格的程式碼閉合檢查)。
- 實用路由:對於關鍵任務使用高階模型,對於日常任務使用經濟高效的模型。
未經測試的模型聲明
Section titled “未經測試的模型聲明”對於此處未列出的型號,我們目前沒有測試數據並且沒有實踐經驗,因此我們不提供評估。
如果贊助商提供對其他模型的存取權限,我們將在實際工作流程中執行基於經驗的評估並更新此頁面。