Comparación y evaluación de modelos en HagiCode
Edita esta páginaAlcance y método
Sección titulada «Alcance y método»- Objetivo: Proporcionar orientación para la selección de modelos basada en una experiencia de integración real en HagiCode.
- Tipos de tareas: implementación de componentes frontend, refactorización de API backend, finalización de pruebas y generación de documentación.
- Ejes de evaluación: efectividad de la entrega (puede finalizar de manera confiable tareas reales) y rentabilidad (costo + disponibilidad nacional).
Notas sobre el tiempo de prueba y el escenario
Sección titulada «Notas sobre el tiempo de prueba y el escenario»- Última fecha de prueba: 2026-03-08
- Período de prueba: 2026-03-01 al 2026-03-08
- Base de muestra: evaluación subjetiva de flujos de trabajo de ingeniería reales de HagiCode, no de números de referencia de proveedores.
- Aplicabilidad: Las conclusiones se limitan al flujo de trabajo y las limitaciones actuales de este proyecto.
Esta página solo enumera los modelos probados.
Sección titulada «Esta página solo enumera los modelos probados.»En realidad, nuestro equipo integró y utilizó los siguientes modelos:
- GLM 4.7
- GLM 5
- Qwen 3.5
- Código Qwen Siguiente
- Códice GPT 5.3
- GPT 5.4
- Minimáx M2.5
Instantánea comparativa (modelos probados)
Sección titulada «Instantánea comparativa (modelos probados)»| modelo | Fecha de prueba | Efectividad de entrega | Rentabilidad | experiencia primaria |
|---|---|---|---|---|
| GPT 5.4 | 2026-03-08 | muy alto | Medio-alto | Con frecuencia supera los requisitos básicos con una sólida calidad de ingeniería |
| Códice GPT 5.3 | 2026-03-08 | muy alto | Medio-alto | Alta calidad de terminación dentro del alcance, sólida producción de ingeniería |
| GLM 5 | 2026-03-08 | Alto | Alto | Rendimiento general estable para nuestros requisitos |
| GLM 4.7 | 2026-03-08 | Alto | muy alto | Entrega confiable con mejor control de costos |
| Minimáx M2.5 | 2026-03-08 | Medio-alto | más alto | Puede lograr la mayoría de los objetivos, pero los errores de cierre de código ocurren con más frecuencia |
| Qwen 3.5 / Código siguiente | 2026-03-08 | Medio | Medio-alto | Clasificación de finalización más baja en nuestros escenarios |
Clasificación de efectividad de entrega (recomendación del autor)
Sección titulada «Clasificación de efectividad de entrega (recomendación del autor)»Clasificados por calidad de finalización de tareas y calidad de prácticas de ingeniería:
- GPT 5.4
- Códice GPT 5.3
- GLM 5
- GLM 4.7
- Minimáx M2.5
- Qwen (3.5 / Código Siguiente)
Hallazgos clave
Sección titulada «Hallazgos clave»- Excepto Qwen, todos los demás modelos probados pueden lograr los resultados objetivo hasta cierto punto.
- GLM 4.7+ (GLM 4.7 y GLM 5) generalmente completa nuestros requisitos sin problemas.
- GPT 5.3 Codex y GPT 5.4 no solo completan los requisitos sino que también producen mejores prácticas de ingeniería y calidad de implementación.
- Minimax M2.5 tiene una debilidad recurrente: errores de cierre de código (por ejemplo, cierre incompleto de soporte/bloque), por lo que se necesita una revisión adicional.
Clasificación de rentabilidad (costo + disponibilidad nacional)
Sección titulada «Clasificación de rentabilidad (costo + disponibilidad nacional)»Clasificados por costo económico y disponibilidad práctica en China:
- Minimáx M2.5
- GLM 4.7
- GLM 5
- Qwen 3.5 / Código siguiente
- Códice GPT 5.3
- GPT 5.4
Nota: esta clasificación es intencionalmente diferente de la clasificación de efectividad de la entrega.
Guía de selección
Sección titulada «Guía de selección»- Primero la calidad: elija GPT 5.4 / GPT 5.3 Codex.
- Estrategia equilibrada: elige GLM 5 / GLM 4.7.
- Primero el costo: elija Minimax M2.5 (con controles de cierre de código más estrictos).
- Enrutamiento práctico: utilice modelos premium para tareas críticas y modelos rentables para tareas rutinarias.
Declaración de modelo no probado
Sección titulada «Declaración de modelo no probado»Para los modelos que no figuran aquí, actualmente no tenemos datos de prueba ni experiencia práctica, por lo que no proporcionamos evaluaciones.
Si los patrocinadores brindan acceso a modelos adicionales, realizaremos evaluaciones basadas en la experiencia en nuestro flujo de trabajo real y actualizaremos esta página.