Сравнение и оценка моделей в HagiCode

Область применения и метод

Цель: предоставить рекомендации по выбору модели, основанные на реальном опыте интеграции в HagiCode.
Типы задач: реализация внешнего компонента, рефакторинг серверного API, завершение тестирования и создание документации.
Оси оценки: эффективность доставки (может ли она надежно выполнять реальные задачи) и экономическая эффективность (затраты + наличие на внутреннем рынке).

Примечания к тестированию и сценарию

Последняя дата тестирования: 8 марта 2026 г.
Тестовый период: с 1 марта 2026 г. по 8 марта 2026 г.
Выборка: субъективная оценка на основе реальных рабочих процессов разработки HagiCode, а не результатов тестов поставщиков.
Применимость: выводы сделаны с учетом текущего рабочего процесса и ограничений этого проекта.

На этой странице перечислены только проверенные модели.

Нашей командой были интегрированы и использованы следующие модели:

ГЛМ 4.7
ГЛМ 5
Квен 3.5
Код Квен Далее
Кодекс GPT 5.3
GPT 5.4
Минимакс М2,5

Сравнительный снимок (тестируемые модели)

Модель	Дата испытания	Эффективность доставки	Экономическая эффективность	Первичный опыт
GPT 5.4	2026-03-08	Очень высокий	Средне-высокий	Часто превосходит базовые требования при высоком инженерном качестве
Кодекс GPT 5.3	2026-03-08	Очень высокий	Средне-высокий	Высокое качество завершения в пределах объема, высокая инженерная производительность
ГЛМ 5	2026-03-08	Высокий	Высокий	Стабильная общая производительность, отвечающая нашим требованиям
ГЛМ 4.7	2026-03-08	Высокий	Очень высокий	Надежная доставка с лучшим контролем затрат
Минимакс М2,5	2026-03-08	Средне-высокий	Самый высокий	Можно достичь большинства целей, но ошибки закрытия кода случаются чаще.
Квен 3.5 / Следующий код	2026-03-08	Средний	Средне-высокий	Более низкий рейтинг завершения в наших сценариях

Рейтинг эффективности доставки (рекомендация автора)

Ранжирование по качеству выполнения задач и качеству инженерной практики:

GPT 5.4
Кодекс GPT 5.3
ГЛМ 5
ГЛМ 4.7
Минимакс М2,5
Квен (3.5 / Следующий код)

Ключевые выводы

За исключением Qwen, все остальные протестированные модели могут в той или иной степени достичь наших целевых результатов.
GLM 4.7+ (GLM 4.7 и GLM 5) обычно полностью удовлетворяет нашим требованиям.
GPT 5.3 Codex и GPT 5.4 не только удовлетворяют требованиям, но также обеспечивают лучшие инженерные методы и качество реализации.
У Minimax M2.5 есть постоянный недостаток: ошибки закрытия кода (например, неполное закрытие скобок/блоков), поэтому необходима дополнительная проверка.

Рейтинг экономической эффективности (стоимость + наличие на внутреннем рынке)

Ранжирование по экономической стоимости и практической доступности в Китае:

Минимакс М2,5
ГЛМ 4.7
ГЛМ 5
Квен 3.5 / Следующий код
Кодекс GPT 5.3
GPT 5.4

Примечание. Этот рейтинг намеренно отличается от рейтинга эффективности доставки.

Руководство по выбору

Качество прежде всего: выберите Кодекс GPT 5.4/GPT 5.3.
Сбалансированная стратегия: выберите GLM 5/GLM 4.7.
Цена: выберите Minimax M2.5 (с более строгими проверками закрытия кода).
Практическая маршрутизация: используйте модели премиум-класса для критически важных задач и экономичные модели для рутинных задач.

Заявление о непроверенной модели

Для моделей, не перечисленных здесь, в настоящее время у нас нет данных испытаний и нет практического опыта, поэтому мы не предоставляем оценок.

Если спонсоры предоставят доступ к дополнительным моделям, мы проведем оценку на основе опыта в нашем реальном рабочем процессе и обновим эту страницу.