Ir al contenido

Comparación y evaluación de modelos en HagiCode

Edita esta página
  • Objetivo: Proporcionar orientación para la selección de modelos basada en una experiencia de integración real en HagiCode.
  • Tipos de tareas: implementación de componentes frontend, refactorización de API backend, finalización de pruebas y generación de documentación.
  • Ejes de evaluación: efectividad de la entrega (puede finalizar de manera confiable tareas reales) y rentabilidad (costo + disponibilidad nacional).

Notas sobre el tiempo de prueba y el escenario

Sección titulada «Notas sobre el tiempo de prueba y el escenario»
  • Última fecha de prueba: 2026-03-08
  • Período de prueba: 2026-03-01 al 2026-03-08
  • Base de muestra: evaluación subjetiva de flujos de trabajo de ingeniería reales de HagiCode, no de números de referencia de proveedores.
  • Aplicabilidad: Las conclusiones se limitan al flujo de trabajo y las limitaciones actuales de este proyecto.

Esta página solo enumera los modelos probados.

Sección titulada «Esta página solo enumera los modelos probados.»

En realidad, nuestro equipo integró y utilizó los siguientes modelos:

  • GLM 4.7
  • GLM 5
  • Qwen 3.5
  • Código Qwen Siguiente
  • Códice GPT 5.3
  • GPT 5.4
  • Minimáx M2.5
modeloFecha de pruebaEfectividad de entregaRentabilidadexperiencia primaria
GPT 5.42026-03-08muy altoMedio-altoCon frecuencia supera los requisitos básicos con una sólida calidad de ingeniería
Códice GPT 5.32026-03-08muy altoMedio-altoAlta calidad de terminación dentro del alcance, sólida producción de ingeniería
GLM 52026-03-08AltoAltoRendimiento general estable para nuestros requisitos
GLM 4.72026-03-08Altomuy altoEntrega confiable con mejor control de costos
Minimáx M2.52026-03-08Medio-altomás altoPuede lograr la mayoría de los objetivos, pero los errores de cierre de código ocurren con más frecuencia
Qwen 3.5 / Código siguiente2026-03-08MedioMedio-altoClasificación de finalización más baja en nuestros escenarios

Clasificación de efectividad de entrega (recomendación del autor)

Sección titulada «Clasificación de efectividad de entrega (recomendación del autor)»

Clasificados por calidad de finalización de tareas y calidad de prácticas de ingeniería:

  1. GPT 5.4
  2. Códice GPT 5.3
  3. GLM 5
  4. GLM 4.7
  5. Minimáx M2.5
  6. Qwen (3.5 / Código Siguiente)
  • Excepto Qwen, todos los demás modelos probados pueden lograr los resultados objetivo hasta cierto punto.
  • GLM 4.7+ (GLM 4.7 y GLM 5) generalmente completa nuestros requisitos sin problemas.
  • GPT 5.3 Codex y GPT 5.4 no solo completan los requisitos sino que también producen mejores prácticas de ingeniería y calidad de implementación.
  • Minimax M2.5 tiene una debilidad recurrente: errores de cierre de código (por ejemplo, cierre incompleto de soporte/bloque), por lo que se necesita una revisión adicional.

Clasificación de rentabilidad (costo + disponibilidad nacional)

Sección titulada «Clasificación de rentabilidad (costo + disponibilidad nacional)»

Clasificados por costo económico y disponibilidad práctica en China:

  1. Minimáx M2.5
  2. GLM 4.7
  3. GLM 5
  4. Qwen 3.5 / Código siguiente
  5. Códice GPT 5.3
  6. GPT 5.4

Nota: esta clasificación es intencionalmente diferente de la clasificación de efectividad de la entrega.

  • Primero la calidad: elija GPT 5.4 / GPT 5.3 Codex.
  • Estrategia equilibrada: elige GLM 5 / GLM 4.7.
  • Primero el costo: elija Minimax M2.5 (con controles de cierre de código más estrictos).
  • Enrutamiento práctico: utilice modelos premium para tareas críticas y modelos rentables para tareas rutinarias.

Para los modelos que no figuran aquí, actualmente no tenemos datos de prueba ni experiencia práctica, por lo que no proporcionamos evaluaciones.

Si los patrocinadores brindan acceso a modelos adicionales, realizaremos evaluaciones basadas en la experiencia en nuestro flujo de trabajo real y actualizaremos esta página.