跳转到内容

HagiCode 中的模型比較和評估

範圍和方法

目標：根據 HagiCode 的真實整合經驗提供模型選擇指導。
任務類型：前端元件實作、後端API重構、測試完成、文件產生。
評估軸：交付有效性（能否可靠地完成實際任務）和成本效益（成本+國內可用性）。

測試時間和場景說明

最新測試日期：2026-03-08
測試期：2026-03-01 至 2026-03-08
樣本基礎：來自真實 HagiCode 工程工作流程的主觀評估，而不是供應商基準數據。
適用性：結論僅限於該專案目前的工作流程和限制。

本頁僅列出經過測試的型號

我們團隊實際整合並使用了以下模型：

GLM 4.7
GLM 5
酷文3.5
Qwen 代碼接下來
GPT 5.3 Codex
GPT 5.4
極小極大 M2.5

比較快照（測試型號）

型號	考試日期	交付效率	成本效益	主要經歷
GPT 5.4	2026-03-08	非常高	中高	憑藉強大的工程品質經常超出基準要求
GPT 5.3 Codex	2026-03-08	非常高	中高	範圍內完成品質高，工程輸出強勁
GLM 5	2026-03-08	高	高	整體性能穩定，滿足我們的要求
GLM 4.7	2026-03-08	高	非常高	可靠的交付和更好的成本控制
極小極大 M2.5	2026-03-08	中高	最高	可以實現大多數目標，但程式碼關閉錯誤發生的頻率更高
Qwen 3.5 / 代碼下一步	2026-03-08	中等	中高	在我們的場景中完成度排名較低

交付效果排名（作者推薦）

按任務完成品質和工程實踐品質排名：

GPT 5.4
GPT 5.3 Codex
GLM 5
GLM 4.7
極小極大 M2.5
Qwen（3.5 / 代碼下一步）

主要發現

除了Qwen之外，所有其他測試模型都可以在一定程度上達到我們的目標結果。
GLM 4.7+（GLM 4.7和GLM 5）大致上可以順利完成我們的要求。
GPT 5.3 Codex和GPT 5.4不僅完成了要求，而且產生了更好的工程實踐和實施品質。
Minimax M2.5 有一個重複的弱點：程式碼關閉錯誤（例如，不完整的括號/區塊關閉），因此需要額外審查。

性價比排名（成本+國內可用性）

按經濟成本和在中國的實用性排名：

極小極大 M2.5
GLM 4.7
GLM 5
Qwen 3.5 / 代碼下一步
GPT 5.3 Codex
GPT 5.4

注意：此排名有意與交付效率排名不同。

選型指導

品質第一：選擇 GPT 5.4 / GPT 5.3 Codex。
平衡策略：選擇GLM 5 / GLM 4.7。
成本優先：選擇 Minimax M2.5（具有更嚴格的程式碼閉合檢查）。
實用路由：對於關鍵任務使用高階模型，對於日常任務使用經濟高效的模型。

未經測試的模型聲明

對於此處未列出的型號，我們目前沒有測試數據並且沒有實踐經驗，因此我們不提供評估。

如果贊助商提供對其他模型的存取權限，我們將在實際工作流程中執行基於經驗的評估並更新此頁面。