HagiCode의 모델 비교 및 평가
페이지 편집범위 및 방법
섹션 제목: “범위 및 방법”- 목표: HagiCode의 실제 통합 경험을 바탕으로 모델 선택 지침을 제공합니다.
- 작업 유형: 프런트엔드 구성요소 구현, 백엔드 API 리팩토링, 테스트 완료 및 문서 생성.
- 평가 축: 납품 효율성(실제 작업을 안정적으로 완료할 수 있는지) 및 비용 효율성(비용 + 국내 가용성).
테스트 시간 및 시나리오 참고 사항
섹션 제목: “테스트 시간 및 시나리오 참고 사항”- 최신 테스트 날짜: 2026-03-08
- 테스트 기간: 2026-03-01 ~ 2026-03-08
- 샘플 기준: 공급업체 벤치마크 수치가 아닌 실제 HagiCode 엔지니어링 워크플로의 주관적인 평가입니다.
- 적용 가능성: 결론의 범위는 이 프로젝트의 현재 작업 흐름 및 제약 조건에 따라 결정됩니다.
이 페이지에는 테스트된 모델만 나열되어 있습니다.
섹션 제목: “이 페이지에는 테스트된 모델만 나열되어 있습니다.”다음 모델은 실제로 우리 팀에서 통합되어 사용되었습니다.
- GLM 4.7
- GLM 5
- 퀀 3.5
- Qwen 코드 다음
- GPT 5.3 코덱스
- GPT 5.4
- 미니맥스 M2.5
비교 스냅샷(테스트 모델)
섹션 제목: “비교 스냅샷(테스트 모델)”| 모델 | 시험 날짜 | 전달 효율성 | 비용 효율성 | 기본 경험 |
|---|---|---|---|---|
| GPT 5.4 | 2026-03-08 | 매우 높음 | 중간 높음 | 강력한 엔지니어링 품질로 기본 요구 사항을 자주 초과합니다. |
| GPT 5.3 코덱스 | 2026-03-08 | 매우 높음 | 중간 높음 | 범위 내에서 높은 완성도, 강력한 엔지니어링 결과물 |
| GLM 5 | 2026-03-08 | 높음 | 높음 | 우리 요구 사항에 대한 안정적인 전반적인 성능 |
| GLM 4.7 | 2026-03-08 | 높음 | 매우 높음 | 더 나은 비용 관리로 안정적인 배송 |
| 미니맥스 M2.5 | 2026-03-08 | 중간 높음 | 최고 | 대부분의 목표를 달성할 수 있지만 코드 종료 오류가 더 자주 발생합니다. |
| Qwen 3.5 / 코드 다음 | 2026-03-08 | 중간 | 중간 높음 | 시나리오에서 완료 순위가 낮음 |
전달효과 순위(저자 추천)
섹션 제목: “전달효과 순위(저자 추천)”작업 완료 품질 및 엔지니어링 실무 품질에 따라 순위가 매겨집니다.
- GPT 5.4
- GPT 5.3 코덱스
- GLM 5
- GLM 4.7
- 미니맥스 M2.5
- Qwen (3.5 / 코드 다음)
주요 결과
섹션 제목: “주요 결과”- Qwen을 제외하고 테스트된 다른 모든 모델은 어느 정도 목표 결과를 달성할 수 있습니다.
- GLM 4.7+(GLM 4.7 및 GLM 5)는 일반적으로 요구 사항을 원활하게 완료합니다.
- GPT 5.3 Codex 및 GPT 5.4는 요구 사항을 완료할 뿐만 아니라 더 나은 엔지니어링 관행과 구현 품질을 제공합니다.
- Minimax M2.5에는 코드 종료 오류(예: 불완전한 대괄호/블록 종료)라는 반복적인 약점이 있으므로 추가 검토가 필요합니다.
가성비 순위(비용+국내 가용성)
섹션 제목: “가성비 순위(비용+국내 가용성)”중국의 경제적 비용과 실제 가용성을 기준으로 순위를 매겼습니다.
- 미니맥스 M2.5
- GLM 4.7
- GLM 5
- Qwen 3.5 / 코드 다음
- GPT 5.3 코덱스
- GPT 5.4
참고: 이 순위는 전달 효율성 순위와 의도적으로 다릅니다.
선택 안내
섹션 제목: “선택 안내”- 품질 우선: GPT 5.4 / GPT 5.3 Codex를 선택하세요.
- 균형 잡힌 전략: GLM 5 / GLM 4.7을 선택하세요.
- 비용 우선: Minimax M2.5를 선택하세요(더 엄격한 코드 폐쇄 검사 포함).
- 실용적인 라우팅: 중요한 작업에는 프리미엄 모델을 사용하고 일상적인 작업에는 비용 효율적인 모델을 사용합니다.
테스트되지 않은 모델 설명
섹션 제목: “테스트되지 않은 모델 설명”여기에 나열되지 않은 모델의 경우 현재 테스트 데이터 없음 및 실습 경험이 없으므로 평가를 제공하지 않습니다.
스폰서가 추가 모델에 대한 액세스를 제공하는 경우 실제 작업 흐름에서 경험 기반 평가를 실행하고 이 페이지를 업데이트할 것입니다.