Comparação e avaliação de modelos no HagiCode
Editar páginaEscopo e método
Seção intitulada “Escopo e método”- Objetivo: Fornecer orientação para seleção de modelos com base na experiência real de integração no HagiCode.
- Tipos de tarefas: implementação de componentes de front-end, refatoração de API de back-end, conclusão de testes e geração de documentação.
- Eixos de avaliação: eficácia de entrega (é possível concluir tarefas reais com segurança) e relação custo-benefício (custo + disponibilidade doméstica).
Notas sobre tempo de teste e cenário
Seção intitulada “Notas sobre tempo de teste e cenário”- Data do último teste: 08/03/2026
- Período de teste: 01/03/2026 a 08/03/2026
- Base de amostra: Avaliação subjetiva de fluxos de trabalho reais de engenharia do HagiCode, e não de números de referência do fornecedor.
- Aplicabilidade: As conclusões têm como escopo o fluxo de trabalho e as restrições atuais deste projeto.
Esta página lista apenas modelos testados
Seção intitulada “Esta página lista apenas modelos testados”Os seguintes modelos foram efetivamente integrados e utilizados por nossa equipe:
- GLM 4.7
- GLM 5
- Qwen 3.5
- Código Qwen Próximo
- Códice GPT 5.3
- GPT 5.4
- Minimax M2.5
Instantâneo de comparação (modelos testados)
Seção intitulada “Instantâneo de comparação (modelos testados)”| Modelo | Data do teste | Eficácia da entrega | Custo-benefício | Experiência primária |
|---|---|---|---|---|
| GPT 5.4 | 2026-03-08 | Muito alto | Médio-alto | Frequentemente excede os requisitos básicos com forte qualidade de engenharia |
| Códice GPT 5.3 | 2026-03-08 | Muito alto | Médio-alto | Alta qualidade de conclusão dentro do escopo, forte produção de engenharia |
| GLM 5 | 2026-03-08 | Alto | Alto | Desempenho geral estável para nossos requisitos |
| GLM 4.7 | 2026-03-08 | Alto | Muito alto | Entrega confiável com melhor controle de custos |
| Minimax M2.5 | 2026-03-08 | Médio-alto | Mais alto | Pode atingir a maioria dos objetivos, mas erros de fechamento de código acontecem com mais frequência |
| Qwen 3.5 / Código Próximo | 2026-03-08 | Médio | Médio-alto | Classificação de conclusão mais baixa em nossos cenários |
Classificação de eficácia de entrega (recomendação do autor)
Seção intitulada “Classificação de eficácia de entrega (recomendação do autor)”Classificado por qualidade de conclusão de tarefa e qualidade de prática de engenharia:
- GPT 5.4
- Códice GPT 5.3
- GLM 5
- GLM 4.7
- Minimax M2.5
- Qwen (3.5 / Código Próximo)
Principais descobertas
Seção intitulada “Principais descobertas”- Exceto Qwen, todos os outros modelos testados podem atingir os resultados desejados até certo ponto.
- GLM 4.7+ (GLM 4.7 e GLM 5) geralmente atende nossos requisitos sem problemas.
- GPT 5.3 Codex e GPT 5.4 não apenas completam os requisitos, mas também produzem melhores práticas de engenharia e qualidade de implementação.
- O Minimax M2.5 tem um ponto fraco recorrente: erros de fechamento de código (por exemplo, fechamento incompleto de colchetes/blocos), portanto, é necessária uma revisão extra.
Classificação custo-efetividade (custo + disponibilidade doméstica)
Seção intitulada “Classificação custo-efetividade (custo + disponibilidade doméstica)”Classificado por custo econômico e disponibilidade prática na China:
- Minimax M2.5
- GLM 4.7
- GLM 5
- Qwen 3.5 / Código Próximo
- Códice GPT 5.3
- GPT 5.4
Observação: esta classificação é intencionalmente diferente da classificação de eficácia de entrega.
Orientação de seleção
Seção intitulada “Orientação de seleção”- Qualidade em primeiro lugar: escolha Codex GPT 5.4 / GPT 5.3.
- Estratégia equilibrada: escolha GLM 5 / GLM 4.7.
- Primeiro custo: escolha Minimax M2.5 (com verificações de fechamento de código mais rigorosas).
- Roteamento prático: use modelos premium para tarefas críticas e modelos econômicos para tarefas rotineiras.
Declaração de modelo não testado
Seção intitulada “Declaração de modelo não testado”Para modelos não listados aqui, atualmente não temos dados de teste e nenhuma experiência prática, por isso não fornecemos avaliações.
Se os patrocinadores fornecerem acesso a modelos adicionais, realizaremos avaliações baseadas na experiência em nosso fluxo de trabalho real e atualizaremos esta página.