Перейти к содержимому

Сравнение и оценка моделей в HagiCode

Редактировать страницу
  • Цель: предоставить рекомендации по выбору модели, основанные на реальном опыте интеграции в HagiCode.
  • Типы задач: реализация внешнего компонента, рефакторинг серверного API, завершение тестирования и создание документации.
  • Оси оценки: эффективность доставки (может ли она надежно выполнять реальные задачи) и экономическая эффективность (затраты + наличие на внутреннем рынке).
  • Последняя дата тестирования: 8 марта 2026 г.
  • Тестовый период: с 1 марта 2026 г. по 8 марта 2026 г.
  • Выборка: субъективная оценка на основе реальных рабочих процессов разработки HagiCode, а не результатов тестов поставщиков.
  • Применимость: выводы сделаны с учетом текущего рабочего процесса и ограничений этого проекта.

На этой странице перечислены только проверенные модели.

Заголовок раздела «На этой странице перечислены только проверенные модели.»

Нашей командой были интегрированы и использованы следующие модели:

  • ГЛМ 4.7
  • ГЛМ 5
  • Квен 3.5
  • Код Квен Далее
  • Кодекс GPT 5.3
  • GPT 5.4
  • Минимакс М2,5

Сравнительный снимок (тестируемые модели)

Заголовок раздела «Сравнительный снимок (тестируемые модели)»
МодельДата испытанияЭффективность доставкиЭкономическая эффективностьПервичный опыт
GPT 5.42026-03-08Очень высокийСредне-высокийЧасто превосходит базовые требования при высоком инженерном качестве
Кодекс GPT 5.32026-03-08Очень высокийСредне-высокийВысокое качество завершения в пределах объема, высокая инженерная производительность
ГЛМ 52026-03-08ВысокийВысокийСтабильная общая производительность, отвечающая нашим требованиям
ГЛМ 4.72026-03-08ВысокийОчень высокийНадежная доставка с лучшим контролем затрат
Минимакс М2,52026-03-08Средне-высокийСамый высокийМожно достичь большинства целей, но ошибки закрытия кода случаются чаще.
Квен 3.5 / Следующий код2026-03-08СреднийСредне-высокийБолее низкий рейтинг завершения в наших сценариях

Рейтинг эффективности доставки (рекомендация автора)

Заголовок раздела «Рейтинг эффективности доставки (рекомендация автора)»

Ранжирование по качеству выполнения задач и качеству инженерной практики:

  1. GPT 5.4
  2. Кодекс GPT 5.3
  3. ГЛМ 5
  4. ГЛМ 4.7
  5. Минимакс М2,5
  6. Квен (3.5 / Следующий код)
  • За исключением Qwen, все остальные протестированные модели могут в той или иной степени достичь наших целевых результатов.
  • GLM 4.7+ (GLM 4.7 и GLM 5) обычно полностью удовлетворяет нашим требованиям.
  • GPT 5.3 Codex и GPT 5.4 не только удовлетворяют требованиям, но также обеспечивают лучшие инженерные методы и качество реализации.
  • У Minimax M2.5 есть постоянный недостаток: ошибки закрытия кода (например, неполное закрытие скобок/блоков), поэтому необходима дополнительная проверка.

Рейтинг экономической эффективности (стоимость + наличие на внутреннем рынке)

Заголовок раздела «Рейтинг экономической эффективности (стоимость + наличие на внутреннем рынке)»

Ранжирование по экономической стоимости и практической доступности в Китае:

  1. Минимакс М2,5
  2. ГЛМ 4.7
  3. ГЛМ 5
  4. Квен 3.5 / Следующий код
  5. Кодекс GPT 5.3
  6. GPT 5.4

Примечание. Этот рейтинг намеренно отличается от рейтинга эффективности доставки.

  • Качество прежде всего: выберите Кодекс GPT 5.4/GPT 5.3.
  • Сбалансированная стратегия: выберите GLM 5/GLM 4.7.
  • Цена: выберите Minimax M2.5 (с более строгими проверками закрытия кода).
  • Практическая маршрутизация: используйте модели премиум-класса для критически важных задач и экономичные модели для рутинных задач.

Для моделей, не перечисленных здесь, в настоящее время у нас нет данных испытаний и нет практического опыта, поэтому мы не предоставляем оценок.

Если спонсоры предоставят доступ к дополнительным моделям, мы проведем оценку на основе опыта в нашем реальном рабочем процессе и обновим эту страницу.