Pular para o conteúdo

Comparação e avaliação de modelos no HagiCode

Editar página
  • Objetivo: Fornecer orientação para seleção de modelos com base na experiência real de integração no HagiCode.
  • Tipos de tarefas: implementação de componentes de front-end, refatoração de API de back-end, conclusão de testes e geração de documentação.
  • Eixos de avaliação: eficácia de entrega (é possível concluir tarefas reais com segurança) e relação custo-benefício (custo + disponibilidade doméstica).
  • Data do último teste: 08/03/2026
  • Período de teste: 01/03/2026 a 08/03/2026
  • Base de amostra: Avaliação subjetiva de fluxos de trabalho reais de engenharia do HagiCode, e não de números de referência do fornecedor.
  • Aplicabilidade: As conclusões têm como escopo o fluxo de trabalho e as restrições atuais deste projeto.

Os seguintes modelos foram efetivamente integrados e utilizados por nossa equipe:

  • GLM 4.7
  • GLM 5
  • Qwen 3.5
  • Código Qwen Próximo
  • Códice GPT 5.3
  • GPT 5.4
  • Minimax M2.5
ModeloData do testeEficácia da entregaCusto-benefícioExperiência primária
GPT 5.42026-03-08Muito altoMédio-altoFrequentemente excede os requisitos básicos com forte qualidade de engenharia
Códice GPT 5.32026-03-08Muito altoMédio-altoAlta qualidade de conclusão dentro do escopo, forte produção de engenharia
GLM 52026-03-08AltoAltoDesempenho geral estável para nossos requisitos
GLM 4.72026-03-08AltoMuito altoEntrega confiável com melhor controle de custos
Minimax M2.52026-03-08Médio-altoMais altoPode atingir a maioria dos objetivos, mas erros de fechamento de código acontecem com mais frequência
Qwen 3.5 / Código Próximo2026-03-08MédioMédio-altoClassificação de conclusão mais baixa em nossos cenários

Classificação de eficácia de entrega (recomendação do autor)

Seção intitulada “Classificação de eficácia de entrega (recomendação do autor)”

Classificado por qualidade de conclusão de tarefa e qualidade de prática de engenharia:

  1. GPT 5.4
  2. Códice GPT 5.3
  3. GLM 5
  4. GLM 4.7
  5. Minimax M2.5
  6. Qwen (3.5 / Código Próximo)
  • Exceto Qwen, todos os outros modelos testados podem atingir os resultados desejados até certo ponto.
  • GLM 4.7+ (GLM 4.7 e GLM 5) geralmente atende nossos requisitos sem problemas.
  • GPT 5.3 Codex e GPT 5.4 não apenas completam os requisitos, mas também produzem melhores práticas de engenharia e qualidade de implementação.
  • O Minimax M2.5 tem um ponto fraco recorrente: erros de fechamento de código (por exemplo, fechamento incompleto de colchetes/blocos), portanto, é necessária uma revisão extra.

Classificação custo-efetividade (custo + disponibilidade doméstica)

Seção intitulada “Classificação custo-efetividade (custo + disponibilidade doméstica)”

Classificado por custo econômico e disponibilidade prática na China:

  1. Minimax M2.5
  2. GLM 4.7
  3. GLM 5
  4. Qwen 3.5 / Código Próximo
  5. Códice GPT 5.3
  6. GPT 5.4

Observação: esta classificação é intencionalmente diferente da classificação de eficácia de entrega.

  • Qualidade em primeiro lugar: escolha Codex GPT 5.4 / GPT 5.3.
  • Estratégia equilibrada: escolha GLM 5 / GLM 4.7.
  • Primeiro custo: escolha Minimax M2.5 (com verificações de fechamento de código mais rigorosas).
  • Roteamento prático: use modelos premium para tarefas críticas e modelos econômicos para tarefas rotineiras.

Para modelos não listados aqui, atualmente não temos dados de teste e nenhuma experiência prática, por isso não fornecemos avaliações.

Se os patrocinadores fornecerem acesso a modelos adicionais, realizaremos avaliações baseadas na experiência em nosso fluxo de trabalho real e atualizaremos esta página.