Comparaison et évaluation de modèles dans HagiCode

Portée et méthode

Objectif : Fournir des conseils de sélection de modèle basés sur une expérience réelle d’intégration dans HagiCode.
Types de tâches : implémentation de composants frontend, refactorisation de l’API backend, achèvement des tests et génération de documentation.
Axes d’évaluation : efficacité de la prestation (peut-il terminer de manière fiable des tâches réelles) et rentabilité (coût + disponibilité nationale).

Notes sur l’heure du test et le scénario

Dernière date de test : 2026-03-08
Période de test : du 01/03/2026 au 08/03/2026
Base d’échantillonnage : évaluation subjective à partir de flux de travail d’ingénierie HagiCode réels, et non des chiffres de référence des fournisseurs.
Applicabilité : les conclusions s’appliquent au flux de travail et aux contraintes actuels de ce projet.

Cette page répertorie uniquement les modèles testés

Les modèles suivants ont été effectivement intégrés et utilisés par notre équipe :

GLM 4.7
GLM5
Qwen 3.5
Code Qwen Suivant
Codex GPT 5.3
GPT 5.4
Minimax M2.5

Instantané de comparaison (modèles testés)

Modèle	Date de l’examen	Efficacité de la livraison	Rentabilité	Expérience primaire
GPT 5.4	2026-03-08	Très élevé	Moyen-élevé	Dépasse fréquemment les exigences de base avec une forte qualité d’ingénierie
Codex GPT 5.3	2026-03-08	Très élevé	Moyen-élevé	Haute qualité d’achèvement dans les limites du champ d’application, forte production d’ingénierie
GLM5	2026-03-08	Élevé	Élevé	Performance globale stable pour nos besoins
GLM 4.7	2026-03-08	Élevé	Très élevé	Livraison fiable avec un meilleur contrôle des coûts
Minimax M2.5	2026-03-08	Moyen-élevé	Le plus haut	Peut atteindre la plupart des objectifs, mais les erreurs de fermeture de code se produisent plus souvent
Qwen 3.5 / Code suivant	2026-03-08	Moyen	Moyen-élevé	Classement d’achèvement inférieur dans nos scénarios

Classement de l’efficacité de la prestation (recommandation de l’auteur)

Classé selon la qualité de l’exécution des tâches et la qualité des pratiques d’ingénierie :

GPT 5.4
Codex GPT 5.3
GLM5
GLM 4.7
Minimax M2.5
Qwen (3.5 / Code suivant)

Principales conclusions

À l’exception de Qwen, tous les autres modèles testés peuvent atteindre nos objectifs dans une certaine mesure.
GLM 4.7+ (GLM 4.7 et GLM 5) répond généralement à nos exigences sans problème.
GPT 5.3 Codex et GPT 5.4 non seulement complètent les exigences, mais produisent également de meilleures pratiques d’ingénierie et une meilleure qualité de mise en œuvre.
Minimax M2.5 a une faiblesse récurrente : des erreurs de fermeture de code (par exemple, fermeture incomplète d’un crochet ou d’un bloc), un examen supplémentaire est donc nécessaire.

Classement coût-efficacité (coût + disponibilité nationale)

Classé par coût économique et disponibilité pratique en Chine :

Minimax M2.5
GLM 4.7
GLM5
Qwen 3.5 / Code suivant
Codex GPT 5.3
GPT 5.4

Remarque : ce classement est intentionnellement différent du classement selon l’efficacité de la prestation.

Conseils de sélection

La qualité d’abord : choisissez GPT 5.4 / GPT 5.3 Codex.
Stratégie équilibrée : choisissez GLM 5 / GLM 4.7.
Le coût d’abord : choisissez Minimax M2.5 (avec des contrôles de fermeture de code plus stricts).
Routage pratique : utilisez des modèles premium pour les tâches critiques et des modèles rentables pour les tâches de routine.

Déclaration de modèle non testé

Pour les modèles non répertoriés ici, nous n’avons actuellement aucune donnée de test ni aucune expérience pratique, nous ne fournissons donc pas d’évaluations.

Si les sponsors donnent accès à des modèles supplémentaires, nous effectuerons des évaluations basées sur l’expérience dans notre flux de travail réel et mettrons à jour cette page.