Comparação e avaliação de modelos no HagiCode

Escopo e método

Objetivo: Fornecer orientação para seleção de modelos com base na experiência real de integração no HagiCode.
Tipos de tarefas: implementação de componentes de front-end, refatoração de API de back-end, conclusão de testes e geração de documentação.
Eixos de avaliação: eficácia de entrega (é possível concluir tarefas reais com segurança) e relação custo-benefício (custo + disponibilidade doméstica).

Notas sobre tempo de teste e cenário

Data do último teste: 08/03/2026
Período de teste: 01/03/2026 a 08/03/2026
Base de amostra: Avaliação subjetiva de fluxos de trabalho reais de engenharia do HagiCode, e não de números de referência do fornecedor.
Aplicabilidade: As conclusões têm como escopo o fluxo de trabalho e as restrições atuais deste projeto.

Esta página lista apenas modelos testados

Os seguintes modelos foram efetivamente integrados e utilizados por nossa equipe:

GLM 4.7
GLM 5
Qwen 3.5
Código Qwen Próximo
Códice GPT 5.3
GPT 5.4
Minimax M2.5

Instantâneo de comparação (modelos testados)

Modelo	Data do teste	Eficácia da entrega	Custo-benefício	Experiência primária
GPT 5.4	2026-03-08	Muito alto	Médio-alto	Frequentemente excede os requisitos básicos com forte qualidade de engenharia
Códice GPT 5.3	2026-03-08	Muito alto	Médio-alto	Alta qualidade de conclusão dentro do escopo, forte produção de engenharia
GLM 5	2026-03-08	Alto	Alto	Desempenho geral estável para nossos requisitos
GLM 4.7	2026-03-08	Alto	Muito alto	Entrega confiável com melhor controle de custos
Minimax M2.5	2026-03-08	Médio-alto	Mais alto	Pode atingir a maioria dos objetivos, mas erros de fechamento de código acontecem com mais frequência
Qwen 3.5 / Código Próximo	2026-03-08	Médio	Médio-alto	Classificação de conclusão mais baixa em nossos cenários

Classificação de eficácia de entrega (recomendação do autor)

Classificado por qualidade de conclusão de tarefa e qualidade de prática de engenharia:

GPT 5.4
Códice GPT 5.3
GLM 5
GLM 4.7
Minimax M2.5
Qwen (3.5 / Código Próximo)

Principais descobertas

Exceto Qwen, todos os outros modelos testados podem atingir os resultados desejados até certo ponto.
GLM 4.7+ (GLM 4.7 e GLM 5) geralmente atende nossos requisitos sem problemas.
GPT 5.3 Codex e GPT 5.4 não apenas completam os requisitos, mas também produzem melhores práticas de engenharia e qualidade de implementação.
O Minimax M2.5 tem um ponto fraco recorrente: erros de fechamento de código (por exemplo, fechamento incompleto de colchetes/blocos), portanto, é necessária uma revisão extra.

Classificação custo-efetividade (custo + disponibilidade doméstica)

Classificado por custo econômico e disponibilidade prática na China:

Minimax M2.5
GLM 4.7
GLM 5
Qwen 3.5 / Código Próximo
Códice GPT 5.3
GPT 5.4

Observação: esta classificação é intencionalmente diferente da classificação de eficácia de entrega.

Orientação de seleção

Qualidade em primeiro lugar: escolha Codex GPT 5.4 / GPT 5.3.
Estratégia equilibrada: escolha GLM 5 / GLM 4.7.
Primeiro custo: escolha Minimax M2.5 (com verificações de fechamento de código mais rigorosas).
Roteamento prático: use modelos premium para tarefas críticas e modelos econômicos para tarefas rotineiras.

Declaração de modelo não testado

Para modelos não listados aqui, atualmente não temos dados de teste e nenhuma experiência prática, por isso não fornecemos avaliações.

Se os patrocinadores fornecerem acesso a modelos adicionais, realizaremos avaliações baseadas na experiência em nosso fluxo de trabalho real e atualizaremos esta página.