Comparación y evaluación de modelos en HagiCode

Alcance y método

Objetivo: Proporcionar orientación para la selección de modelos basada en una experiencia de integración real en HagiCode.
Tipos de tareas: implementación de componentes frontend, refactorización de API backend, finalización de pruebas y generación de documentación.
Ejes de evaluación: efectividad de la entrega (puede finalizar de manera confiable tareas reales) y rentabilidad (costo + disponibilidad nacional).

Notas sobre el tiempo de prueba y el escenario

Última fecha de prueba: 2026-03-08
Período de prueba: 2026-03-01 al 2026-03-08
Base de muestra: evaluación subjetiva de flujos de trabajo de ingeniería reales de HagiCode, no de números de referencia de proveedores.
Aplicabilidad: Las conclusiones se limitan al flujo de trabajo y las limitaciones actuales de este proyecto.

Esta página solo enumera los modelos probados.

En realidad, nuestro equipo integró y utilizó los siguientes modelos:

GLM 4.7
GLM 5
Qwen 3.5
Código Qwen Siguiente
Códice GPT 5.3
GPT 5.4
Minimáx M2.5

Instantánea comparativa (modelos probados)

modelo	Fecha de prueba	Efectividad de entrega	Rentabilidad	experiencia primaria
GPT 5.4	2026-03-08	muy alto	Medio-alto	Con frecuencia supera los requisitos básicos con una sólida calidad de ingeniería
Códice GPT 5.3	2026-03-08	muy alto	Medio-alto	Alta calidad de terminación dentro del alcance, sólida producción de ingeniería
GLM 5	2026-03-08	Alto	Alto	Rendimiento general estable para nuestros requisitos
GLM 4.7	2026-03-08	Alto	muy alto	Entrega confiable con mejor control de costos
Minimáx M2.5	2026-03-08	Medio-alto	más alto	Puede lograr la mayoría de los objetivos, pero los errores de cierre de código ocurren con más frecuencia
Qwen 3.5 / Código siguiente	2026-03-08	Medio	Medio-alto	Clasificación de finalización más baja en nuestros escenarios

Clasificación de efectividad de entrega (recomendación del autor)

Clasificados por calidad de finalización de tareas y calidad de prácticas de ingeniería:

GPT 5.4
Códice GPT 5.3
GLM 5
GLM 4.7
Minimáx M2.5
Qwen (3.5 / Código Siguiente)

Hallazgos clave

Excepto Qwen, todos los demás modelos probados pueden lograr los resultados objetivo hasta cierto punto.
GLM 4.7+ (GLM 4.7 y GLM 5) generalmente completa nuestros requisitos sin problemas.
GPT 5.3 Codex y GPT 5.4 no solo completan los requisitos sino que también producen mejores prácticas de ingeniería y calidad de implementación.
Minimax M2.5 tiene una debilidad recurrente: errores de cierre de código (por ejemplo, cierre incompleto de soporte/bloque), por lo que se necesita una revisión adicional.

Clasificación de rentabilidad (costo + disponibilidad nacional)

Clasificados por costo económico y disponibilidad práctica en China:

Minimáx M2.5
GLM 4.7
GLM 5
Qwen 3.5 / Código siguiente
Códice GPT 5.3
GPT 5.4

Nota: esta clasificación es intencionalmente diferente de la clasificación de efectividad de la entrega.

Guía de selección

Primero la calidad: elija GPT 5.4 / GPT 5.3 Codex.
Estrategia equilibrada: elige GLM 5 / GLM 4.7.
Primero el costo: elija Minimax M2.5 (con controles de cierre de código más estrictos).
Enrutamiento práctico: utilice modelos premium para tareas críticas y modelos rentables para tareas rutinarias.

Declaración de modelo no probado

Para los modelos que no figuran aquí, actualmente no tenemos datos de prueba ni experiencia práctica, por lo que no proporcionamos evaluaciones.

Si los patrocinadores brindan acceso a modelos adicionales, realizaremos evaluaciones basadas en la experiencia en nuestro flujo de trabajo real y actualizaremos esta página.