Comparaison et évaluation de modèles dans HagiCode
Modifier cette pagePortée et méthode
Section intitulée « Portée et méthode »- Objectif : Fournir des conseils de sélection de modèle basés sur une expérience réelle d’intégration dans HagiCode.
- Types de tâches : implémentation de composants frontend, refactorisation de l’API backend, achèvement des tests et génération de documentation.
- Axes d’évaluation : efficacité de la prestation (peut-il terminer de manière fiable des tâches réelles) et rentabilité (coût + disponibilité nationale).
Notes sur l’heure du test et le scénario
Section intitulée « Notes sur l’heure du test et le scénario »- Dernière date de test : 2026-03-08
- Période de test : du 01/03/2026 au 08/03/2026
- Base d’échantillonnage : évaluation subjective à partir de flux de travail d’ingénierie HagiCode réels, et non des chiffres de référence des fournisseurs.
- Applicabilité : les conclusions s’appliquent au flux de travail et aux contraintes actuels de ce projet.
Cette page répertorie uniquement les modèles testés
Section intitulée « Cette page répertorie uniquement les modèles testés »Les modèles suivants ont été effectivement intégrés et utilisés par notre équipe :
- GLM 4.7
- GLM5
- Qwen 3.5
- Code Qwen Suivant
- Codex GPT 5.3
- GPT 5.4
- Minimax M2.5
Instantané de comparaison (modèles testés)
Section intitulée « Instantané de comparaison (modèles testés) »| Modèle | Date de l’examen | Efficacité de la livraison | Rentabilité | Expérience primaire |
|---|---|---|---|---|
| GPT 5.4 | 2026-03-08 | Très élevé | Moyen-élevé | Dépasse fréquemment les exigences de base avec une forte qualité d’ingénierie |
| Codex GPT 5.3 | 2026-03-08 | Très élevé | Moyen-élevé | Haute qualité d’achèvement dans les limites du champ d’application, forte production d’ingénierie |
| GLM5 | 2026-03-08 | Élevé | Élevé | Performance globale stable pour nos besoins |
| GLM 4.7 | 2026-03-08 | Élevé | Très élevé | Livraison fiable avec un meilleur contrôle des coûts |
| Minimax M2.5 | 2026-03-08 | Moyen-élevé | Le plus haut | Peut atteindre la plupart des objectifs, mais les erreurs de fermeture de code se produisent plus souvent |
| Qwen 3.5 / Code suivant | 2026-03-08 | Moyen | Moyen-élevé | Classement d’achèvement inférieur dans nos scénarios |
Classement de l’efficacité de la prestation (recommandation de l’auteur)
Section intitulée « Classement de l’efficacité de la prestation (recommandation de l’auteur) »Classé selon la qualité de l’exécution des tâches et la qualité des pratiques d’ingénierie :
- GPT 5.4
- Codex GPT 5.3
- GLM5
- GLM 4.7
- Minimax M2.5
- Qwen (3.5 / Code suivant)
Principales conclusions
Section intitulée « Principales conclusions »- À l’exception de Qwen, tous les autres modèles testés peuvent atteindre nos objectifs dans une certaine mesure.
- GLM 4.7+ (GLM 4.7 et GLM 5) répond généralement à nos exigences sans problème.
- GPT 5.3 Codex et GPT 5.4 non seulement complètent les exigences, mais produisent également de meilleures pratiques d’ingénierie et une meilleure qualité de mise en œuvre.
- Minimax M2.5 a une faiblesse récurrente : des erreurs de fermeture de code (par exemple, fermeture incomplète d’un crochet ou d’un bloc), un examen supplémentaire est donc nécessaire.
Classement coût-efficacité (coût + disponibilité nationale)
Section intitulée « Classement coût-efficacité (coût + disponibilité nationale) »Classé par coût économique et disponibilité pratique en Chine :
- Minimax M2.5
- GLM 4.7
- GLM5
- Qwen 3.5 / Code suivant
- Codex GPT 5.3
- GPT 5.4
Remarque : ce classement est intentionnellement différent du classement selon l’efficacité de la prestation.
Conseils de sélection
Section intitulée « Conseils de sélection »- La qualité d’abord : choisissez GPT 5.4 / GPT 5.3 Codex.
- Stratégie équilibrée : choisissez GLM 5 / GLM 4.7.
- Le coût d’abord : choisissez Minimax M2.5 (avec des contrôles de fermeture de code plus stricts).
- Routage pratique : utilisez des modèles premium pour les tâches critiques et des modèles rentables pour les tâches de routine.
Déclaration de modèle non testé
Section intitulée « Déclaration de modèle non testé »Pour les modèles non répertoriés ici, nous n’avons actuellement aucune donnée de test ni aucune expérience pratique, nous ne fournissons donc pas d’évaluations.
Si les sponsors donnent accès à des modèles supplémentaires, nous effectuerons des évaluations basées sur l’expérience dans notre flux de travail réel et mettrons à jour cette page.