Aller au contenu

Comparaison et évaluation de modèles dans HagiCode

Modifier cette page
  • Objectif : Fournir des conseils de sélection de modèle basés sur une expérience réelle d’intégration dans HagiCode.
  • Types de tâches : implémentation de composants frontend, refactorisation de l’API backend, achèvement des tests et génération de documentation.
  • Axes d’évaluation : efficacité de la prestation (peut-il terminer de manière fiable des tâches réelles) et rentabilité (coût + disponibilité nationale).
  • Dernière date de test : 2026-03-08
  • Période de test : du 01/03/2026 au 08/03/2026
  • Base d’échantillonnage : évaluation subjective à partir de flux de travail d’ingénierie HagiCode réels, et non des chiffres de référence des fournisseurs.
  • Applicabilité : les conclusions s’appliquent au flux de travail et aux contraintes actuels de ce projet.

Cette page répertorie uniquement les modèles testés

Section intitulée « Cette page répertorie uniquement les modèles testés »

Les modèles suivants ont été effectivement intégrés et utilisés par notre équipe :

  • GLM 4.7
  • GLM5
  • Qwen 3.5
  • Code Qwen Suivant
  • Codex GPT 5.3
  • GPT 5.4
  • Minimax M2.5
ModèleDate de l’examenEfficacité de la livraisonRentabilitéExpérience primaire
GPT 5.42026-03-08Très élevéMoyen-élevéDépasse fréquemment les exigences de base avec une forte qualité d’ingénierie
Codex GPT 5.32026-03-08Très élevéMoyen-élevéHaute qualité d’achèvement dans les limites du champ d’application, forte production d’ingénierie
GLM52026-03-08ÉlevéÉlevéPerformance globale stable pour nos besoins
GLM 4.72026-03-08ÉlevéTrès élevéLivraison fiable avec un meilleur contrôle des coûts
Minimax M2.52026-03-08Moyen-élevéLe plus hautPeut atteindre la plupart des objectifs, mais les erreurs de fermeture de code se produisent plus souvent
Qwen 3.5 / Code suivant2026-03-08MoyenMoyen-élevéClassement d’achèvement inférieur dans nos scénarios

Classement de l’efficacité de la prestation (recommandation de l’auteur)

Section intitulée « Classement de l’efficacité de la prestation (recommandation de l’auteur) »

Classé selon la qualité de l’exécution des tâches et la qualité des pratiques d’ingénierie :

  1. GPT 5.4
  2. Codex GPT 5.3
  3. GLM5
  4. GLM 4.7
  5. Minimax M2.5
  6. Qwen (3.5 / Code suivant)
  • À l’exception de Qwen, tous les autres modèles testés peuvent atteindre nos objectifs dans une certaine mesure.
  • GLM 4.7+ (GLM 4.7 et GLM 5) répond généralement à nos exigences sans problème.
  • GPT 5.3 Codex et GPT 5.4 non seulement complètent les exigences, mais produisent également de meilleures pratiques d’ingénierie et une meilleure qualité de mise en œuvre.
  • Minimax M2.5 a une faiblesse récurrente : des erreurs de fermeture de code (par exemple, fermeture incomplète d’un crochet ou d’un bloc), un examen supplémentaire est donc nécessaire.

Classement coût-efficacité (coût + disponibilité nationale)

Section intitulée « Classement coût-efficacité (coût + disponibilité nationale) »

Classé par coût économique et disponibilité pratique en Chine :

  1. Minimax M2.5
  2. GLM 4.7
  3. GLM5
  4. Qwen 3.5 / Code suivant
  5. Codex GPT 5.3
  6. GPT 5.4

Remarque : ce classement est intentionnellement différent du classement selon l’efficacité de la prestation.

  • La qualité d’abord : choisissez GPT 5.4 / GPT 5.3 Codex.
  • Stratégie équilibrée : choisissez GLM 5 / GLM 4.7.
  • Le coût d’abord : choisissez Minimax M2.5 (avec des contrôles de fermeture de code plus stricts).
  • Routage pratique : utilisez des modèles premium pour les tâches critiques et des modèles rentables pour les tâches de routine.

Pour les modèles non répertoriés ici, nous n’avons actuellement aucune donnée de test ni aucune expérience pratique, nous ne fournissons donc pas d’évaluations.

Si les sponsors donnent accès à des modèles supplémentaires, nous effectuerons des évaluations basées sur l’expérience dans notre flux de travail réel et mettrons à jour cette page.