ＨａｇｉＣｏｄｅにおけるモデルの比較と評価

最新のテスト日: 2026-03-08
テスト期間: 2026-03-01 ～ 2026-03-08
サンプルベース: ベンダーベンチマークの数値ではなく、実際のHagiCodeエンジニアリングワークフローからの主観的な評価です。
適用性: 結論は、このプロジェクトの現在のワークフローと制約に限定されます。

範囲と方法

次のモデルは実際に統合され、私たちのチームによって使用されました。

モデル	試験日	配信の効率性	費用対効果	主な経験
GPT5.4	2026-03-08	非常に高い	中～高	強力なエンジニアリング品質により、ベースライン要件を頻繁に上回ります
GPT 5.3 Codex	2026-03-08	非常に高い	中～高	範囲内での高い完成度、強力なエンジニアリング成果
GLM5	2026-03-08	高	高	要件を満たす安定した全体的なパフォーマンス
GLM 4.7	2026-03-08	高	非常に高い	より優れたコスト管理による信頼性の高い納品
ミニマックス M2.5	2026-03-08	中～高	最高	ほとんどの目標は達成できますが、コードクローズエラーがより頻繁に発生します
Qwen 3.5 / コードネクスト	2026-03-08	中	中～高	シナリオの完了ランキングが低い

タスク完了の品質とエンジニアリング実践の品質によってランク付けされます。

経済的コストと中国での実用的な入手可能性によってランク付けされています。

注: このランキングは配信効率ランキングとは意図的に異なります。

ここにリストされていないモデルについては、現在 テストデータがなく、実際の使用経験がないため、評価は提供しておりません。

スポンサーが追加のモデルへのアクセスを提供した場合、実際のワークフローで経験に基づく評価を実行し、このページを更新します。