콘텐츠로 이동

HagiCode의 모델 비교 및 평가

페이지 편집
  • 목표: HagiCode의 실제 통합 경험을 바탕으로 모델 선택 지침을 제공합니다.
  • 작업 유형: 프런트엔드 구성요소 구현, 백엔드 API 리팩토링, 테스트 완료 및 문서 생성.
  • 평가 축: 납품 효율성(실제 작업을 안정적으로 완료할 수 있는지) 및 비용 효율성(비용 + 국내 가용성).

테스트 시간 및 시나리오 참고 사항

섹션 제목: “테스트 시간 및 시나리오 참고 사항”
  • 최신 테스트 날짜: 2026-03-08
  • 테스트 기간: 2026-03-01 ~ 2026-03-08
  • 샘플 기준: 공급업체 벤치마크 수치가 아닌 실제 HagiCode 엔지니어링 워크플로의 주관적인 평가입니다.
  • 적용 가능성: 결론의 범위는 이 프로젝트의 현재 작업 흐름 및 제약 조건에 따라 결정됩니다.

이 페이지에는 테스트된 모델만 나열되어 있습니다.

섹션 제목: “이 페이지에는 테스트된 모델만 나열되어 있습니다.”

다음 모델은 실제로 우리 팀에서 통합되어 사용되었습니다.

  • GLM 4.7
  • GLM 5
  • 퀀 3.5
  • Qwen 코드 다음
  • GPT 5.3 코덱스
  • GPT 5.4
  • 미니맥스 M2.5
모델시험 날짜전달 효율성비용 효율성기본 경험
GPT 5.42026-03-08매우 높음중간 높음강력한 엔지니어링 품질로 기본 요구 사항을 자주 초과합니다.
GPT 5.3 코덱스2026-03-08매우 높음중간 높음범위 내에서 높은 완성도, 강력한 엔지니어링 결과물
GLM 52026-03-08높음높음우리 요구 사항에 대한 안정적인 전반적인 성능
GLM 4.72026-03-08높음매우 높음더 나은 비용 관리로 안정적인 배송
미니맥스 M2.52026-03-08중간 높음최고대부분의 목표를 달성할 수 있지만 코드 종료 오류가 더 자주 발생합니다.
Qwen 3.5 / 코드 다음2026-03-08중간중간 높음시나리오에서 완료 순위가 낮음

작업 완료 품질 및 엔지니어링 실무 품질에 따라 순위가 매겨집니다.

  1. GPT 5.4
  2. GPT 5.3 코덱스
  3. GLM 5
  4. GLM 4.7
  5. 미니맥스 M2.5
  6. Qwen (3.5 / 코드 다음)
  • Qwen을 제외하고 테스트된 다른 모든 모델은 어느 정도 목표 결과를 달성할 수 있습니다.
  • GLM 4.7+(GLM 4.7 및 GLM 5)는 일반적으로 요구 사항을 원활하게 완료합니다.
  • GPT 5.3 Codex 및 GPT 5.4는 요구 사항을 완료할 뿐만 아니라 더 나은 엔지니어링 관행과 구현 품질을 제공합니다.
  • Minimax M2.5에는 코드 종료 오류(예: 불완전한 대괄호/블록 종료)라는 반복적인 약점이 있으므로 추가 검토가 필요합니다.

중국의 경제적 비용과 실제 가용성을 기준으로 순위를 매겼습니다.

  1. 미니맥스 M2.5
  2. GLM 4.7
  3. GLM 5
  4. Qwen 3.5 / 코드 다음
  5. GPT 5.3 코덱스
  6. GPT 5.4

참고: 이 순위는 전달 효율성 순위와 의도적으로 다릅니다.

  • 품질 우선: GPT 5.4 / GPT 5.3 Codex를 선택하세요.
  • 균형 잡힌 전략: GLM 5 / GLM 4.7을 선택하세요.
  • 비용 우선: Minimax M2.5를 선택하세요(더 엄격한 코드 폐쇄 검사 포함).
  • 실용적인 라우팅: 중요한 작업에는 프리미엄 모델을 사용하고 일상적인 작업에는 비용 효율적인 모델을 사용합니다.

여기에 나열되지 않은 모델의 경우 현재 테스트 데이터 없음실습 경험이 없으므로 평가를 제공하지 않습니다.

스폰서가 추가 모델에 대한 액세스를 제공하는 경우 실제 작업 흐름에서 경험 기반 평가를 실행하고 이 페이지를 업데이트할 것입니다.