コンテンツにスキップ

HagiCodeにおけるモデルの比較と評価

ページを編集
  • 目標:HagiCode での実際の統合経験に基づいたモデル選択のガイダンスを提供します。
  • タスクの種類: フロントエンド コンポーネントの実装、バックエンド API リファクタリング、テストの完了、ドキュメントの生成。
  • 評価軸:配信効率(実際のタスクを確実に完了できるか)と費用対効果(コスト+国内入手可能性)。
  • 最新のテスト日: 2026-03-08
  • テスト期間: 2026-03-01 ~ 2026-03-08
  • サンプルベース: ベンダーベンチマークの数値ではなく、実際のHagiCodeエンジニアリングワークフローからの主観的な評価です。
  • 適用性: 結論は、このプロジェクトの現在のワークフローと制約に限定されます。

このページにはテスト済みのモデルのみがリストされています

Section titled “このページにはテスト済みのモデルのみがリストされています”

次のモデルは実際に統合され、私たちのチームによって使用されました。

  • GLM 4.7
  • GLM5
  • クウェン 3.5
  • Qwenコードネクスト
  • GPT 5.3 Codex
  • GPT5.4
  • ミニマックス M2.5

比較スナップショット (テスト済みモデル)

Section titled “比較スナップショット (テスト済みモデル)”
モデル試験日配信の効率性費用対効果主な経験
GPT5.42026-03-08非常に高い中~高強力なエンジニアリング品質により、ベースライン要件を頻繁に上回ります
GPT 5.3 Codex2026-03-08非常に高い中~高範囲内での高い完成度、強力なエンジニアリング成果
GLM52026-03-08要件を満たす安定した全体的なパフォーマンス
GLM 4.72026-03-08非常に高いより優れたコスト管理による信頼性の高い納品
ミニマックス M2.52026-03-08中~高最高ほとんどの目標は達成できますが、コードクローズエラーがより頻繁に発生します
Qwen 3.5 / コードネクスト2026-03-08中~高シナリオの完了ランキングが低い

配信効果ランキング(筆者おすすめ)

Section titled “配信効果ランキング(筆者おすすめ)”

タスク完了の品質とエンジニアリング実践の品質によってランク付けされます。

  1. GPT5.4
  2. GPT 5.3 Codex
  3. GLM5
  4. GLM 4.7
  5. ミニマックス M2.5
  6. Qwen (3.5 / コードネクスト)
  • Qwen を除いて、他のすべてのテスト済みモデルは、ある程度の目標結果を達成できます。
  • GLM 4.7+ (GLM 4.7 および GLM 5) は通常、要件をスムーズに満たします。
  • GPT 5.3 Codex と GPT 5.4 は要件を満たしているだけでなく、より優れたエンジニアリング プラクティスと実装品質を生み出します。
  • Minimax M2.5 には、コード終了エラー (不完全な括弧/ブロック終了など) という繰り返しの弱点があるため、追加のレビューが必要です。

費用対効果ランキング(コスト+国内入手可能性)

Section titled “費用対効果ランキング(コスト+国内入手可能性)”

経済的コストと中国での実用的な入手可能性によってランク付けされています。

  1. ミニマックス M2.5
  2. GLM 4.7
  3. GLM5
  4. Qwen 3.5 / コードネクスト
  5. GPT 5.3 Codex
  6. GPT5.4

注: このランキングは配信効率ランキングとは意図的に異なります。

  • 品質第一: GPT 5.4 / GPT 5.3 Codex を選択します。
  • バランスの取れた戦略: GLM 5 / GLM 4.7 を選択します。
  • コスト優先: Minimax M2.5 (より厳密なコード閉鎖チェック付き) を選択します。
  • 実用的なルーティング: 重要なタスクにはプレミアム モデルを使用し、日常的なタスクにはコスト効率の高いモデルを使用します。

未テストのモデルステートメント

Section titled “未テストのモデルステートメント”

ここにリストされていないモデルについては、現在 テスト データがなく実際の使用経験がないため、評価は提供しておりません。

スポンサーが追加のモデルへのアクセスを提供した場合、実際のワークフローで経験に基づく評価を実行し、このページを更新します。