跳转到内容

HagiCode 中的模型比較和評估

编辑此页
  • 目標:根據 HagiCode 的真實整合經驗提供模型選擇指導。
  • 任務類型:前端元件實作、後端API重構、測試完成、文件產生。
  • 評估軸:交付有效性(能否可靠地完成實際任務)和成本效益(成本+國內可用性)。
  • 最新測試日期:2026-03-08
  • 測試期:2026-03-01 至 2026-03-08
  • 樣本基礎:來自真實 HagiCode 工程工作流程的主觀評估,而不是供應商基準數據。
  • 適用性:結論僅限於該專案目前的工作流程和限制。

我們團隊實際整合並使用了以下模型:

  • GLM 4.7
  • GLM 5
  • 酷文3.5
  • Qwen 代碼 接下來
  • GPT 5.3 Codex
  • GPT 5.4
  • 極小極大 M2.5
型號考試日期交付效率成本效益主要經歷
GPT 5.42026-03-08非常高中高憑藉強大的工程品質經常超出基準要求
GPT 5.3 Codex2026-03-08非常高中高範圍內完成品質高,工程輸出強勁
GLM 52026-03-08整體性能穩定,滿足我們的要求
GLM 4.72026-03-08非常高可靠的交付和更好的成本控制
極小極大 M2.52026-03-08中高最高可以實現大多數目標,但程式碼關閉錯誤發生的頻率更高
Qwen 3.5 / 代碼下一步2026-03-08中等中高在我們的場景中完成度排名較低

按任務完成品質和工程實踐品質排名:

  1. GPT 5.4
  2. GPT 5.3 Codex
  3. GLM 5
  4. GLM 4.7
  5. 極小極大 M2.5
  6. Qwen(3.5 / 代碼下一步)
  • 除了Qwen之外,所有其他測試模型都可以在一定程度上達到我們的目標結果。
  • GLM 4.7+(GLM 4.7和GLM 5)大致上可以順利完成我們的要求。
  • GPT 5.3 Codex和GPT 5.4不僅完成了要求,而且產生了更好的工程實踐和實施品質。
  • Minimax M2.5 有一個重複的弱點:程式碼關閉錯誤(例如,不完整的括號/區塊關閉),因此需要額外審查。

性價比排名(成本+國內可用性)

Section titled “性價比排名(成本+國內可用性)”

按經濟成本和在中國的實用性排名:

  1. 極小極大 M2.5
  2. GLM 4.7
  3. GLM 5
  4. Qwen 3.5 / 代碼下一步
  5. GPT 5.3 Codex
  6. GPT 5.4

注意:此排名有意與交付效率排名不同。

  • 品質第一:選擇 GPT 5.4 / GPT 5.3 Codex。
  • 平衡策略:選擇GLM 5 / GLM 4.7。
  • 成本優先:選擇 Minimax M2.5(具有更嚴格的程式碼閉合檢查)。
  • 實用路由:對於關鍵任務使用高階模型,對於日常任務使用經濟高效的模型。

對於此處未列出的型號,我們目前沒有測試數據並且沒有實踐經驗,因此我們不提供評估。

如果贊助商提供對其他模型的存取權限,我們將在實際工作流程中執行基於經驗的評估並更新此頁面。